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内 容 提 要 


本 书 是 专注 于 讲解 HCIE 路 由 交换 技术 的 学 习 指导 书 ， 书 中 对 路 由 交换 技术 涉及 的 大 部 分 协议 都 做 了 
全 面 细致 的 讲解 ， 针 对 重要 协议 原理 及 实现 细节 都 结合 实例 加 以 系统 的 分 析 和 归纳 总 结 ， 通 过 学 习 本 书 读 
者 能 全 面 掌 握 路 由 交换 理论 中 的 知识 。 

本 书 共 分 十 章 ， 第 一 章 从 路 由 基础 讲 起 ， 涉 及 IPv4 和 IPv6 的 基本 概念 ， 其 后 第 二 章 到 第 五 章 分 别 
阐述 RIP、0SPF、IS-IS 及 路 由 控制 技术 ; 第 六 章 和 第 七 章 重点 阐述 大 型 网 络 中 BGP 协议 、 组 播 路 由 协 
议 (IGMP 及 PIM 等 ) 原理 ， 第 八 章 对 MPLS 及 MPLS VPN 技术 做 了 深入 阐述 ， 第 九 章 则 对 交换 技术 ， 包 
括 VLAN 技术 、 生 成 树 技术 及 WAN 技术 加 以 阐述 ， 第 十 章 对 华为 的 QoS 实现 做 了 探讨 。 

本 书 适合 准备 参加 HCIE 路 由 交换 考试 的 考生 或 希望 深入 了 解 华为 路 由 交换 技术 的 工程 技术 人 员 学 习 
使 用 ， 同 时 也 适合 对 网 络 技术 感 兴趣 的 人 员 作 参考 学 习 之 用 。 
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斗 转 星 移 ， 物 是 人 非 ， 多 少 英雄 侍 与 土 ， 开 江湖 代 有 才 人 出 ! 

都 说 “IT” 就 是 “ 挨 踢 ”的 代名词 ,“ 网 管 员 ” 已 经 成 “网 吧 小 伙计 ”的 专属 称谓 。 

倒退 30 年 ， 如 果 你 说 是 搞 计算 机 的 ， 在 女孩 儿 的 心目 中 ， 那 你 可 是 “ 搞 高 科技 ” 
的 优质 男 。 

倒退 20 年 ， 如 果 你 说 是 搞 互 联网 的 ， 在 女孩 儿 的 心目 中 ， 你 使 然 又 成 了 “无 所 不 
能 ”的 神秘 男 。 

倒退 10 年 ， 如 果 你 说 是 搞 云 计算 的 ， 在 女孩 儿 的 心目 中 ， 你 依然 可 以 得 到 “高 看 
一 眼 ” 的 待遇 。 

这 曾经 是 几 代 IT 男 赖 以 “显摆 ”的 经 典 招 数 之 一 ， 可 当时 间 定 格 到 2017 年 ， 新 一 
代 的 IT 男 还 能 有 类 似 的 金字 招牌 招摇 吗 ? 

要 回答 这 个 问题 ， 让 我 们 看 看 现在 的 市 场 环境 ,“ 自 主 可 控 ” 上 升 到 国家 战略 这 几 年 ， 
内 IT 品牌 市 场 份额 不 断 刷 新 历史 记录 ,“ 一 带 一 路 ”更 将 为 国内 品牌 走向 世界 强力 助 推 。 伴随 
着 这 种 趋势 ， 需 要 大 量 的 IT 人 才 满 足 各 方面 的 信息 化 建设 与 使 用 需求 ， 作 为 早 就 国际 化 的 国 
内 优秀 IT 认证 品牌 ， 华 为 HCIE 认证 越 来 越 得 到 广大 客户 和 学 员 的 青睐 ， 有 望 打 起 这 个 大 旗 。 

因 业 务 机 缘 , 自己 有 幸 参与 过 华为 企业 业务 IT 认证 体系 设计 的 初期 调研 ， 知 道 为 什 
么 要 在 传统 的 笔试 、 实 验 的 基础 上 ， 特 别 加 上 答辩 的 环节 。 几 年 的 实践 证 明 ， 这 个 决策 
是 非常 正确 的 ， 正 是 这 个 环节 的 严格 把 关 ， 避 免 了 简单 的 “ 哨 教 材 、 背 版 本 、 拼 机 时 ” 
套路 ， 成 为 真 金 不 怕 火 炼 的 试金石 。 

这 种 严 苛 ， 就 得 靠 自学 、 自 悟 ， 很 难 提 高 学 员 的 通过 率 ， 于 是 我 们 看 到 有 的 学 员 因 不 得 
要 领 而 折 戟 ， 有 的 学 员 为 得 到 某 个 高 师 的 指点 而 四 处 求教 ， 有 的 学 员 干 脆 放 弃 了 努力 …… 

确实 ， 要 靠 真 本 事 ， 就 要 学 到 真 经， 一 本 融 理 论 与 实践 精华 ， 深 入 浅 出 的 HCIE 辅 
导 教材 就 成 为 学 员 们 学 习 的 关键 。 这 里 ， 非 常 感谢 刘 大 伟 、 陈 亮 、 丁 琳 琦 三 位 老师 的 辛 
勤 努 力 ， 终 于 给 大 家 就 者 出 了 这 道教 学 知识 大 餐 ! 这 三 位 老师 都 是 业界 教学 的 大 拿 ， 培 
训 、 培 养 了 大 量 的 HCIE 人 才 ， 现 在 能 够 把 多 年 的 实践 经 验 贡 献 出 来 ， 实 属 难能可贵 ， 
相信 每 个 学 员 都 能 从 中 找到 茅 塞 顿 开 的 感觉 。 

如 果 你 是 新 一 代 的 IT 男 , 那么 就 以 此 书 为 利 剑 , 在 HCIE 的 比武 台 上 , 一 展 英 姿 吧 ! 


高 洪福 

华为 本 部 技术 中 心 总 经 理 
神州 数码 集团 股份 有 限 公司 
2017-5-18 


2012 年 12 月 ， 华 为 公司 推出 了 一 项 新 的 职业 认证 计划 一 一 HCIE (华为 认证 互联 网 专 
家 ) 认证 ， 该 认证 是 为 了 适应 全 球 对 更 多 的 ICT 〈 信 息 与 通信 技术 ) 技术 专家 的 需求 而 
推出 的 ， 是 目前 业界 最 权威 的 技术 认证 之 一 ， 同 时 该 认证 也 是 业界 考取 难度 超大 、 含 金 
量 超 高 的 认证 。 

《HCIE 路 由 交换 学 习 指 南 》 由 华为 公司 核心 教育 合作 伙伴 一 一 泰克 教育 集团 主编 ， 
由 刘 大 伟 、 陈 亮 、 丁 琳 琦 三 位 泰克 专家 讲师 基于 上 千 名 HCIE 人 才 的 培养 经 验 编写 而 成 。 

本 书 编 写 的 主要 目的 是 帮助 读者 通过 HCIE 认证 。 本 书 覆 盖 了 HCIE 所 有 重要 知识 ， 
无 论 你 是 要 成 为 HCIE， 还 是 为 了 对 数据 网 络 设计 、 故 障 诊断 等 有 更 深入 的 了 解 ， 阅 读 
本 书 都 会 使 你 获 益 菲 浅 。 

本 书 为 泰克 教育 集团 计划 出 版 ICT 系列 教程 中 的 其 中 一 本 ,泰克 将 通过 推出 现 有 和 
未 来 的 教科 书 的 方式 ， 来 助力 实现 华为 全 球 培训 认证 部 的 主要 目标 : 培训 华为 用 户 群 体 
ICT 专业 知识 ， 使 得 该 群体 能 够 构建 和 维护 可 靠 、 弹 性 的 数据 信息 网 络 ， 并 通过 严格 培 
训 来 满足 更 多 用 户 的 学 习 需 求 。 

最 后 希望 本 书 对 您 开卷 有 益 。 


林 康平 
泰克 教育 集团 CEO 
2017 年 5 月 
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华为 HCIE 认证 是 目前 IT 界 最 为 权威 的 认证 考试 之 一 , 该 认证 考试 包含 Lab 考试 和 
面试 考试 两 部 分 ， 其 中 的 面试 考试 因 考 核 的 内 容 多 、 追 问 细 而 使 HCIE 认证 成 为 目前 IT 
界 较 难 通过 的 考试 ， 其 含金量 不 言 而 喻 。 

华为 HCIE 路 由 交换 方向 的 考试 认证 包含 多 种 路 由 技术 及 交换 技术 ， 协 议 较 多 ， 原 
理 较 复杂 ， 为 了 帮助 考生 丰富 其 理论 知识 并 准备 面试 ， 泰 克 网 络 实验 室 的 老师 集中 精力 
编写 了 这 本 《HCIE 路 由 交换 学 习 指 南 》 指 导 书 ， 希 望 能 助 在 准备 HCIE 路 由 交换 认证 
的 考生 一 臂 之 力 ， 更 重要 的 是 ， 我 们 也 希望 考生 通过 本 书 的 学 习 ， 能 增进 理论 知识 ， 提 
高 分 析 问 题 及 解决 问题 的 能 力 ， 当 然 这 也 是 华为 推出 HCIE 路 由 交换 认证 考试 的 目的 。 

近 些 年 来 ， 网 络 技术 更 新 的 速度 非常 快 ， 新 的 协议 、 新 的 技术 层出不穷 ， 但 任何 协 
议 技术 都 是 以 路 由 交换 技术 为 基础 的 ， 很 多 协议 甚至 在 设计 开发 时 都 是 相互 借鉴 ， 原 理 
都 彼此 相通 ， 所 以 学 好 路 由 交换 技术 除了 能 帮助 我 们 提高 理解 能 力 之 外 ， 还 有 助 于 我 们 
掌握 其 他 新 技术 。 

华为 HCIE 路 由 交换 技术 所 涉及 的 内 容 非 常 多 ， 本 书 在 内 容 选 择 上 ， 仅 选取 了 一 些 
较为 重要 的 知识 模块 加 以 阐述 ， 并 没有 覆盖 到 路 由 交换 的 全 部 内 容 ， 选 取 的 内 容 包 括 
IGP、BGP、 组 播 、MPLS L3VPN、 交 换 及 QoS 技术 。 

书 中 内 容 按 照 如 下 顺序 来 组 织 。 

第 一 章 : IP 路 由 基础 ， 包 含 IPv4 及 IPv6 路 由 的 基本 概念 。 

第 二 章 : RIP 及 RIPng 的 协议 原理 。 

第 三 章 : 阐述 OSPF 协议 原理 及 OSPF 与 OSPFv3 协议 的 区 别 。 

第 四 章 : IS-IS 路 由 协议 原理 及 其 对 IPv6 的 支持 。 

第 五 章 : Route-control 技术 ， 列 举 各 种 路 由 控制 技术 。 

第 六 章 : BGP 协议 原理 。 

第 七 章 : IP 骨干 网 络 中 组 播 路 由 协议 ， 包 括 IGMP、PIM、MSDP 及 mBGP。 

第 八 章 : 域内 及 域 间 MPLS L3VPN 技术 。 

第 九 章 : 交换 技术 ， 包 括 VLAN、STP 及 WAN 技术 。 

第 十 章 : QoS 实现 ， 包 括 标 记 、 队 列 、 整 形 、 监 管 及 限 速 等 。 

本 书 在 原理 阐述 过 程 中 尽量 结合 实例 或 场景 加 以 分 析 ， 力 图 透彻 详尽 地 把 概念 阐述 
清楚 。 

本 书 在 编写 过 程 中 ， 得 到 各 地 泰克 老师 的 大 力 支 持 ， 在 此 一 并 表示 诚挚 的 感谢 。 由 
于 作者 水 平 所 限 及 时 间 仓 促 ， 书 中 难免 存在 一 些 廖 误 和 不 足 之 处 ， 敬 请 读者 批评 指正 ， 
也 欢迎 读者 或 考生 直接 到 泰克 和 我 们 一 起 探讨 ， 我 们 会 在 本 书 的 后 续 版 本 中 对 其 加 以 
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更 新 。 

本 书 适合 于 准备 华为 HCIE 路 由 交换 认证 的 考生 参考 学 习 之 用 ， 本 书 同 样 适 合 于 已 
通过 HCIE 认证 的 考生 及 对 路 由 交换 技术 感 兴趣 的 工程 师 学 习 使 用 ， 也 可 作为 其 他 厂商 
的 技术 工程 师 熟悉 华为 技术 的 一 本 技术 参考 书籍 。 


作者 
2017 年 5 月 
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本 章 对 IPv4 和 IPv6 协议 做 了 简单 介绍 ， 同 时 ， 添 加 了 路 由 协议 基础 知识 的 介绍 。 


本 章 包 含 以 下 内 容 : 


© 了 解 IPv4 协议 栈 和 IPv6 协议 栈 
© 了 解 路 由 表 和 FIB 的 内 容 

@ 对 比 矢量 和 链 路 状态 路 由 协议 
© 了 解 静 态 路 由 和 动态 路 由 协议 
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1.1 1IPv4 地 址 规划 


1.1.1 IPv4 地 址 


IPv4 地 址 分 成 网 络 部 分 和 主机 部 分 ， 在 现实 网 络 设计 中 ， 普 遍 采 用 的 地 址 规划 是 在 
主机 部 分 继续 划分 子 网 ， 以 满足 企业 需要 更 多 网 段 的 需求 ， 同 时 解决 IP 地 址 空间 利用 率 
较 低 的 问题 。 

IPv4 的 地 址 根据 定义 可 分 为 : A 类 地 址 ，B 类 地 址 和 C 类 地 址 。 

A 类 地 址 是 第 一 字 节 的 第 一 位 为 0 的 人 P 地址 ， 第 一 字 节 的 数值 范围 为 1 一 126。 

注意 : 数字 0 和 127 不 作为 A 类 地 址 ， 数 字 127 保留 给 内 部 回环 地 址 。 

B 类 地 址 是 第 一 字 节 的 第 一 和 第 二 位 为 10 的 一 组 地 址 ， 第 一 字 节 的 数值 范围 为 
128~191。 

C 类 地 址 是 第 一 字 节 的 第 一 、 第 二 和 第 三 位 为 110 的 一 组 地 址 ， 第 一 字 节 的 数值 范 
围 为 192 一 223。 


1.1.2 主 网 及 子 网 划分 


主 网 段 采用 自然 掩 码 ， 即 A 类 网 络 中 使 用 8 位 掩 码 ，B 类 网 络 中 使 用 16 位 掩 码 ，C 
类 网 络 中 使 用 24 位 掩 码 。 在 相应 自然 掩 码 的 后 面 继续 添加 掩 码 位 所 定义 出 来 的 网 络 是 主 
网 的 子 网 ， 其 掩 码 称 为 子 网 掩 码 。 

子 网 掩 码 用 来 和 IP 地 址 “与 ”运算 后 计算 出 网 络 地 址 ， 子 网 掩 码 的 形式 是 一 串 1 
后 跟随 一 串 0 组 成 ， 其 中 ，1 对 应 着 IP 地 址 中 的 网 络 位 ， 而 0 在 IP 地 址 对 应 的 是 主 
机 位 。 

A 类 网 络 (1 一 126) 默认 子 网 掩 码 : 255.0.0.0 

B 类 网 络 (128 一 191) 默认 子 网 掩 码 : 255.255.0.0 

C 类 网 络 〈192 一 223) 默认 子 网 掩 码 : 255.255.255.0 

子 网 划分 是 把 整个 主 类 网 络 地 址 继续 划分 成 更 多 的 子 网 络 地 址 ， 属 于 在 主 网 内 部 重 
新 规划 不 同 子 网 的 行为 。 从 外 部 来 看 ， 整 个 网 络 只 有 一 个 网 络 号 码 ， 所 有 划分 出 来 的 子 
网 共用 同样 的 主 网 前 绥 ， 只 有 当 外 面 的 报 文 进入 到 主 网 络 范围 后 ， 内 部 的 路 由 设备 才 根 
据 子 网 号 码 再 进行 选 路 ， 找 到 目的 主机 。 

如 图 1-1 所 示 , 把 一 个 B 类 地 址 的 Host-id 的 高 5 位 拿 出 来 用 来 划分 子 网 ，Subnet-id 
值 的 范围 是 00000~11111， 总 共 可 以 划分 出 来 32 个 子 网 。 对 应 的 子 网 掩 码 也 会 相应 地 
发 生变 化 ， 如 Subnet-id 为 11111 的 子 网 掩 码 就 是 255.255.248.0， 将 了 P 地 址 与 其 相应 掩 
码 位 执行 与 运算 的 结果 就 是 网 络 地 址 。 

根据 以 上 子 网 划分 的 方法 ， 地 址 规划 设计 可 按 以 下 要 求 执行 。 

1. 层次 性 

实现 网 络 的 层次 性 划分 , 需要 综合 考虑 地 域 和 业务 因素 , 采用 自 项 向 下 的 方法 划分 ， 
达到 有 效 管理 网 络 、 简 化 路 由 表 的 目的 ， 一 般 情况 下 : 
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。 ”对 于 大 骨干 网 络 和 大 城 域 网 络 相 结合 的 网 络 ， 采 用 层次 性 划分 方式 ; 
。 ”对 于 行政 区 类 型 的 网 络 ， 采 用 多 级 网 络 分 配方 式 。 
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1-1 IPv4 子 网 划分 


2. 连续 性 

连续 地 址 在 层次 结构 的 网 络 中 易于 进行 路 由 聚合 ， 大 大 缩减 路 由 表 数 量 ， 提 高 路 由 
查找 的 效率 。 尽 量 为 每 个 区 域 分 配 连续 的 人 P 地 址 空间 。 尽 量 为 具有 相同 业务 和 功能 的 设 
备 分 配 连续 的 IP 地 址 。 

3. 扩展 性 

分 配 地 址 时 ， 在 每 一 层次 上 都 要 留 有 余 量 。 当 网 络 规模 扩展 时 能 保证 地 址 分 配 的 连 
续 性 ， 实 现 网 络 的 长 远 规划 。 骨 和 干 网 络 应 有 足够 的 连续 地 址 组 成 独立 的 自治 域 ， 并 为 今 
后 的 扩展 留 有 余地 。 

4. 高 效 性 

划分 子 网 时 ， 要 保证 充分 利用 地 址 资源 ， 使 子 网 的 划分 满足 主机 个 数 的 要 求 。 

利用 可 变 长 子 网 掩 码 VLSM (Variable Length Subnet Mask) 技术 分 配 IP 地 址 ， 充 分 
合理 地 利用 地 址 资源 。 

与 网 络 的 路 由 机 制 设计 相 结合 ， 合 理 使 用 已 划分 的 地 址 空间 ， 提 高 地 址 的 利用 率 。 


1.1.3 IPv4 报 文 


IPv4 头 的 长 度 至 少 为 20Byte， 最 多 为 40Byte。 报 文 格式 如 图 1-2 所 示 。 


| 32Bits | 
8 8 8 8 
Header Type of Service 


Identifier Fragment Offset 


Source Address 





Destination Address 


1-2 IP 报 文 头 


版 本 号 (Version): 长 度 4bit。 标 识 目 前 采用 的 卫 协议 的 版 本 号 ， 二 进 制 为 0100 
代表 IPv4， 二 进 制 为 0110 代表 IPv6。 
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报 文 头 长 度 (Header Length): 长 度 4bit。 这 个 字段 的 作用 是 为 了 描述 全 报 文 头 的 
长 度 ， 因 为 在 IP 报 文 头 中 有 变 长 的 可 选 部 分 。 该 部 分 占 4 位 ， 取 值 范围 从 5 到 15， 即 
本 区 域 值 =IP 头 部 长 度 (单位 为 bit) /(8*4)。 因此, 一 个 人 P 报 文 头 的 长 度 最 长 为 “1111”， 
即 15*4=60 个 Byte，IP 报 文 头 最 小 长 度 为 20Byte。 

服务 类 型 (Type of Service): 长 度 8bit， 用 于 实施 QoS，RFC 791 中 TOS 的 下 
Precedence 将 数据 流 分 为 8 个 优先 级 ， 取 值 越 大 优先 级 越 高 。 而 RFC 2474 中 又 对 TOS 
进行 了 重新 的 定义 ， 把 前 6 位 定义 成 DSCP， 可 以 标识 64 种 等 级 ， 后 两 位 保留 ， 参 考 
QoS 章节 。 

报 文 总 长 度 〈Total Length ): 长 度 16bit。 以 Byte 为 单位 计算 的 他 报 文 的 长 度 ( 包 
括 报 文 头 部 和 数据 )， 所 以 IP 报 文 最 大 长 度 为 65535Byte。 

标识 符 〈ldentifier): 长 度 16bit。 该 字段 与 Flags 和 Fragment Offest 字段 联合 使 用 ， 
对 较 大 的 上 层 数据 包 进 行 分 段 〈fragment) 操作 。 路 由 器 将 一 个 包 拆 分 后 ， 所 有 拆 分 开 
的 小 包 被 标记 相同 的 值 ， 以 便 目 的 端 设备 能 够 区 分 哪个 包 属 于 被 拆 分开 的 包 的 一 部 分 。 

标记 〈Flags): 长 度 3bit。 该 字段 第 1 位 不 使 用 。 第 2 位 是 DF (Don't Fragment) 
位 ，DF 位 设 为 1 时 表明 路 由 器 不 能 对 该 上 层 数据 包 分 段 。 如 果 一 个 上 层 数据 包 无 法 在 
不 分 段 的 情况 下 进行 转发 ， 则 路 由 器 会 丢弃 该 上 层 数据 包 并 返回 一 个 ICMP 错误 信息 。 
第 3 位 是 MF (More Fragments) 位 ， 当 路 由 器 对 一 个 上 层 数据 包 分 段 ， 则 路 由 器 会 在 除 
了 最 后 一 个 分 段 的 他 报 文 的 头 中 将 MF 位 设 为 1。 

片 偏 移 〈Fragment Offset): 长 度 13bit。 表 示 该 卫 报 文 在 该 组 分 片 中 的 位 置 ， 接 收 
端 靠 此 来 组 装 还 原 卫 报 文 。 

生存 时 间 (TTL): 长 度 8bit。 当 IP 报 文 进行 传送 时 ， 先 会 对 该 字段 赋予 某 个 特定 的 
值 ， 当 IP 报 文 经 过 每 一 个 沿途 的 路 由 器 的 时 候 ， 每 个 沿途 的 路 由 器 会 将 人 P 报 文 的 TTL 
值 减少 1， 如 果 TTL 减少 为 0， 则 该 下 报 文 会 被 丢弃 ， 这 个 字段 可 以 防止 由 于 路 由 环 路 
而 导致 下 报 文 在 网 络 中 不 停 被 转发 。 

协议 (Protocol): 长 度 8bit。 标识 了 上 层 所 使 用 的 协议 。 例 如 ICMP 协议 号 为 1)、 
IGMP (协议 号 为 2)、OSPF (协议 号 为 89)。 

头 部 校 验 (Header Checksum): 长 度 16bit。 用 来 做 全 头 部 的 正确 性 检测 ， 但 不 包 
含 数 据 部 分 。 因 为 每 个 路 由 器 要 改变 TTL 的 值 ， 所 以 路 由 器 会 为 每 个 通过 的 数据 包 重 新 
计算 这 个 值 。 

源 和 目标 地 址 (Source and Destination Addresses): 这 两 个 地 段 都 是 32bit。 标 识 
了 这 个 IP 报 文 的 起 源 和 目标 地 址 ， 要 注意 除非 使 用 NAT， 否 则 整个 传输 的 过 程 中 ， 这 
两 个 地 址 不 会 改变 。 

可 选项 (Options): 这 是 一 个 可 变 长 的 字段 。 该 字段 属于 可 选项 ， 主 要 用 于 测试 ， 
由 起 源 设备 根据 需要 改写 。 可 选项 目 包 含 以 下 内 容 。 

。 松散 源 路 由 (Loose Source Routing ): 给 出 一 连 串 路 由 器 接口 的 了 PP 地 址 。 下 包 

必须 沿 着 这 些 全 地 址 传送 ， 但 是 允许 在 相继 的 两 个 瑟 地 址 之 间 跳 过 多 个 路 由 器 . 

9 严格 源 路 由 ( Strict Source Routing ): 给 出 一 连 串 路 由 器 接口 的 全 地 址 。 人 P 包 

必须 沿 着 这 些 IP 地 址 传送 ， 如 果 下 一 跳 不 在 瑟 地 址 表 中 则 表示 发 生 错误 。 

4 路 由 记录 (RecordRoute): 当 耳 包 离 开 每 个 路 由 器 的 时 候 记录 路 由 器 的 出 站 接 
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口 的 全 地 址 。 
* 时间 惟 (Timestamps ): 当 IP 包 离开 每 个 路 由 器 的 时 候 记 录 时 间 。 
填充 ‘Padding): 因为 IP 报 文 头 长 度 (Header Length) 部 分 的 单位 为 32bit， 所 以 
IP 报 文 头 长 度 必须 为 32bit 的 整数 倍 。 因 此 ， 在 可 选项 后 面 ， 了 P 协议 会 填充 若干 个 0， 
以 达到 32bit 的 整数 倍 。 


1.2 1IP 路 由 表 和 FIB 


1.2.1 IP 路 由 转发 和 标签 交换 


IP 转发 又 称 人 P 路 由 ,是 指 三 层 网 络 设备 收 到 IP 报 文 , 根据 本 设备 的 路 由 表 做 决策 ， 
选择 某 个 转发 出 口 的 过 程 。 通过 对 IP 转发 过 程 的 优化 ， 可 以 提升 转发 效率 ， 降 低 转 发 延 
时 ， 减 小 系统 资源 消耗 ， 转 发 更 多 的 数据 报 文 。 

优化 三 层 路 由 转发 方式 为 交换 方式 ， 如 标签 交换 ， 或 构建 快速 转发 表 (FIB)， 把 报 
文 转 发 所 需要 的 下 一 跳 及 出 口 的 链 路 层 封 装 缓存 到 快速 转发 表 中 , 并 下 发 到 硬件 板 卡 上 ， 
以 实现 快速 转发 。 

传统 转发 方式 转发 是 根据 IP 报 文 的 目标 地 址 ， 查 找 IP 路 由 表 中 所 有 路 由 条 目 ， 做 
最 长 的 匹配 后 确定 转发 接口 。 因 其 对 路 由 表 做 逐 行 扫描 , 这 种 卫 转发 方式 消耗 较 大 CPU 

华为 克服 了 传统 转发 方式 的 缺点 ， 优 化 了 路 由 查 表 过 程 ， 具 体 实现 方式 是 在 设备 内 
部 ， 构 建 一 张 转发 表 Forwarding Information Base (FIB)，FIB 包含 所 有 已 知 路 由 表 中 的 
全 部 路 由 ， 只 要 路 由 表 里 有 新 的 路 由 出 现 ， 就 一 定 出 现在 FIB 表 中 ， 它 是 由 路 由 表 中 的 
路 由 条 目的 变化 驱动 的 。 进 入 FIB 中 的 转发 条 目 并 不 会 超时 消失 ， 所 以 任何 时 候 数据 包 
都 可 以 根据 FIB 做 路 由 转发 ， 而 不 需要 使 用 RIB 表 。 大 部 分 厂商 把 FIB 表 中 的 路 由 按 树 
形 方式 组 织 ， 这 可 降低 根据 目标 卫 地 址 查 表 的 时 间 。 

FIB 表 中 包含 的 内 容 有 路 由 条 目 ， 同 时 每 个 条 目 都 有 对 应 的 隧道 接口 和 指针 或 者 标 
签 ， 指 针 或 者 标签 将 指向 两 层 交 换 表 中 的 封装 结构 ， 三 层 路 由 查找 和 转发 后 二 层 地 址 封 
装 同时 完成 ， 实 现 快 速 转发 。 


1.2.2 IP 路 由 表 和 FIB 表 


路 由 器 转发 数据 包 的 关键 是 路 由 表 和 FIB 表 ， 每 个 路 由 器 都 至 少 保存 着 一 张 路 由 表 
(CRIB) 和 一 张 FIB 表 。 路 由 器 通过 路 由 表 选 择 路 由 ， 并 通过 FIB 表 指 导报 文 进行 转发 ， 
所 以 FIB 表 处 于 数据 平面 ， 而 RIB 则 处 于 控制 平面 。 

1.2.2.1 路 由 表 

每 台 路 由 器 中 都 有 一 个 全 局 了 路 由 表 , 而 全 局 运行 的 各 个 路 由 协议 也 维护 着 各 自 的 
协议 路 由 表 。 

。 JP 路 由 表 

路 由 器 使 用 人 P 路 由 表 来 保存 各 路 由 协议 的 最 佳 路 由 和 决策 优选 路 由 , 并 负责 把 优选 
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路 由 下 发 到 FIB 表 ， 通过 FIB 表 指导 报 文 进行 转发 。IP 路 由 表 依据 各 种 路 由 协议 的 优先 
级 和 度量 值 来 选取 路 由 。 


说 明 : 
如 果 路 由 器 上 定义 了 VPN-Instance, 则 每 个 VPN-Instance 中 仅 包 含 一 个 IP 路 由 表 和 一 个 
FIB 表 。 


。 协议 路 由 表 

协议 路 由 表 中 存放 着 该 路 由 协议 发 现 的 路 由 信息 。 

路 由 协议 可 以 引入 并 发 布 其 他 协议 生成 的 路 由 。 例 如 , 在 路 由 器 上 运行 OSPF 协议 ， 
需要 使 用 OSPF 协议 通告 直 连 路 由 、 静 态 路 由 或 者 IS-IS 路 由 时 ， 要 将 这 些 路 由 引入 到 
OSPF 协议 的 路 由 表 中 。 

在 路 由 器 中 ， 执 行 命令 display ip routing-table 时 ， 可 以 查看 路 由 器 的 路 由 表 概 要 信 
其 中 包含 默认 路 由 和 精确 路 由 ， 如 下 所 示 : 


<Huawei> display ip routing-table 
Route Flags: R - relay, D - download to fib 


Routing Tables: Public 


息 


Destinations : 14 Routes: 14 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
0.0.0.0/0 Static 60 0 RD 10.137.216.1 GigabitEthernet 
2/0/0 
10.10.10.0/24 Direct 0 0 D 10.10.10.10 GigabitEthemet 
1/0/0 
10.10.10.10/32 Direct 0 0 DR A InLoopBack0 
10.10.10.255/32 Direct 0 0 D 127.0.04 InLoopBack0 
10.10.11.0/24 Direct 0 0 D 10.10.11.1 LoopBack0 
10.10.11.1/32 Direct 0 0 D127001 InLoopBack0 
10.10.11.255/32 Direct 0 0 D00T InLoopBack0 
10.137.216.0/23 Direct 0 0 D 10.137.217.208 GigabitEthernet 
2/0/0 
10.137.217.208/32 Direct 0 0 D 127.0.0.1 InLoopBack0 
10.137.217.255/32 Direct 0 0 D 127.0.0.1 InLoopBack0 
127.0.0.0/8 Direct 0 0 D2700.1 InLoopBack0 
127.0.0.1/32 ”Direct 0 0 D 127.0.0.1 InLoopBack0 
127.255.255.255/32 Direct 0 0 D 127.0.0.1 InLoopBack0 
255.255.255.255/32 Direct 0 0 D 127.0.0.1 InLoopBack0 


路 由 表 中 包含 了 下 列 关 键 项 。 

e。 Destination: 表示 此 路 由 的 目的 地 址 。 用 来 标识 全 包 的 目的 地 址 或 目的 网 络 。 

。 Mask: 表示 此 目的 地 址 的 子 网 掩 码 长 度 。 与 目的 地 址 一 起 来 标识 目的 主机 或 路 
由 器 所 在 的 网 段 的 地 址 。 将 目的 地 址 和 子 网 失 码 “逻辑 与 ”后 可 得 到 目的 主机 
或 路 由 器 所 在 网 段 的 地 址 。 例 如 : 目的 地 址 为 1.1.1.1， 掩 码 为 255.255.255.0 的 
主机 或 路 由 器 所 在 网 段 的 地 址 为 1.1.1.0。 掩 码 由 若干 个 连续 “1” 构 成 ， 既 可 以 
用 点 分 十 进 制 表示 ， 也 可 以 用 掩 码 中 连续 “1” 的 个 数 来 表示 。 例 如 ， 掩 码 
255.255.255.0 长 度 为 24， 即 可 以 表示 为 24。 
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e。 Proto: 表示 学 习 此 路 由 的 路 由 协议 。 
e “Pre: 表示 此 路 由 的 路 由 协议 优先 级 。 针 对 同一 目的 地 ， 可 能 存在 不 同 下 一 跳 、 

出 接口 等 多 条 路 由 ， 这 些 不 同 的 路 由 可 能 是 由 不 同 的 路 由 协议 发 现 的 ， 也 可 以 

是 手工 配置 的 静态 路 由 。 优 先 级 高 (数值 小 ) 者 将 成 为 当前 的 最 优 路 由 。 
e Cost: 路 由 开销 。 当 到 达 同 一 目的 地 的 多 条 路 由 具有 相同 的 路 由 优先 级 时 ， 路 

由 开销 最 小 的 将 成 为 当前 的 最 优 路 由 。 
说 明 : 
Preference 用 于 不 同 路 由 协议 间 路 由 优先 级 的 比较 , Cost 用 于 同一 种 路 由 协议 的 不 同 路 

由 条 目的 比较 。 


。 NextHop: 表示 此 路 由 的 下 一 跳 地 址 ， 指 明 数 据 转发 的 下 一 个 设备 。 

。 ”Interface: 表示 此 路 由 的 出 接口 ， 指 明 数 据 将 从 本 地 路 由 器 哪个 接口 转发 出 去 。 

说 明 : 

无 论 是 动态 还 是 静态 生成 的 路 由 表 项 ， 只 有 在 出 接口 状态 是 Up 的 情况 下 ， 才 能 通过 
命令 display ip routing-table 查 到 相应 的 路 由 信息 ,否则 该 路 由 为 非 激活 状态 。 可 以 通过 命令 
display ip routing-table protocol 查询 路 由 是 否 为 激活 状态 。 


1.2.2.2 FIB 的 工作 机 制 

在 路 由 表 选 择 出 路 由 后 ， 路 由 表 会 将 激活 路 由 下 发 到 FIB 表 中 。 当 报 文 到 达 路 由 器 
时 ， 会 通过 查找 FIB 表 进 行 转发 。 

FIB 表 中 每 条 转发 项 都 指明 到 达 某 网 段 或 某 主 机 的 报 文 应 通过 路 由 器 的 哪个 物理 接 
口 或 逻辑 接口 发 送 ， 然 后 就 可 到 达 该 路 径 的 下 一 个 路 由 器 ， 或 者 不 再 经 过 别 的 路 由 器 而 
传送 到 直接 相连 的 网 络 中 的 目的 主机 。 

FIB 的 操作 包括 两 个 单独 的 部 分 : 控制 平面 和 转发 平面 。 

控制 平面 负责 在 创建 FIB 表 前 与 路 由 管理 的 接口 工作 ， 将 FIB 下 载 到 转发 引擎 ， 对 
于 分 布 式 系统 ， 还 需要 将 FIB 下 载 到 1/O 板 。 转 发 平面 则 是 直接 查找 FIB 表 项 ， 然 后 根 
据 查 找 的 结果 转发 数据 。 每 个 FIB 表 项 中 都 指明 报 文 到 某 网 段 或 者 某 主 机 的 出 接口 ， 及 
下 一 跳 地 址 或 者 目的 主机 地 址 。 

FIB 中 包含 了 路 由 器 在 转发 报 文 时 所 必需 的 一 组 最 小 信息 。 一 个 FIB 条 目 中 一 般 包 
括 目 的 地 址 、 前 绥 长 度 、 传 输 端 口 、 下 一 跳 地 址 、 标 明 路 由 特征 的 标志 以 及 时 间 戳 。 路 
由 器 使 用 FIB 的 各 项 来 转发 报 文 。 

首先 ， 为 了 连接 不 同 的 网 络 拓扑 需要 运行 不 同 的 路 由 协议 ， 这 样 就 产生 了 RIB 
(Routing Information Base)。RIB 是 创建 FIB 的 基础 ， 路 由 器 会 根据 路 由 管理 策略 ， 从 
RIB 中 提取 出 最 小 转发 信息 并 放 入 FIB。 用 户 还 可 通过 路 由 管理 向 FIB 中 增加 静态 路 由 。 

在 路 由 表 选 择 出 路 由 后 ， 路 由 表 会 将 激活 路 由 下 发 到 FIB 表 中 。 当 报 文 到 达 路 由 器 
时 ， 会 通过 查找 FIB 表 进 行 转发 。FIB 可 下 发 到 各 个 板 卡 ， 数 据 报 文 在 板 卡 上 执行 硬件 
交换 ， 无 需 经 过 CPU， 一 旦 在 FIB 中 找 不 到 对 应 的 条 目 ， 报 文 继续 送 给 CPU 去 处 理 。 
这 样 的 设计 可 以 提高 数据 报 文 的 转发 速度 。 

FIB 表 中 每 条 转发 项 都 指明 到 达 某 网 段 或 某 主 机 的 报 文 应 通过 路 由 器 的 哪个 物理 接 
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口 或 逻辑 接口 发 送 ， 然 后 就 可 到 达 该 路 径 的 下 一 个 路 由 器 ， 或 者 不 再 经 过 别 的 路 由 器 而 
传送 到 直接 相连 的 网 络 中 的 目的 主机 。 
FIB 表 的 匹配 遵循 最 长 匹配 原则 ， 查 找 FIB 表 时 ， 报 文 的 目的 地 址 和 FIB 中 各 表 项 
的 掩 码 进行 按 位 “逻辑 与 ”， 得 到 的 地 址 符合 FIB 表 项 中 的 网 络 地 址 则 匹配 。 最 终 选择 
一 个 最 长 匹配 的 FIB 表 项 转发 报 文 。 
例如 ， 一 台 路 由 器 上 的 路 由 表 如 下 : 


Routing Tables: 

Destination/Mask Proto Pre Cost Flags NextHop Interface 
0.0.0.0/0 Static 60 0 D 120.0.0.2 GigabitEthermet1/0/0 - 
8.0.0.0/8 RIP 100 3 D 120.0.0.2 GigabitEthemet1/0/0 
9.0.0.0/8 OSPF 10 50 D 20.0.0.2 GigabitEthemet3/0/0 
9.1.0.0/16 RIP 100 +4 8 120.0.0.2 GigabitEthemet2/0/0 
20.0.0.0/8 Direct 0 20.0.0.1 GigabitEthernet4/0/0 


当 一 个 目的 地 址 是 9.1.2.1 的 报 文 进入 路 由 器 时 ， 查找 对 应 的 FIB 表 。 
display FIB 命令 用 来 查看 转发 信息 表 的 信息 。 


FIB Table: 
Total number of Routes : 5 
Destination/Mask Nexthop Flag TimeStamp Interface TunnelID 
0.0.0.0/0 120.0.0.2 SU _t37] GigabitEthernet1/0/0 0x0 
8.0.0.0/8 120.0.0.2 DU tI37] GigabitEthernet1/0/0 ,0x0 
9.0.0.0/8 20.0.0.2 DU t[9992] GigabitEthemet3/0/0 0x0 
9.1.0.0/16 120.0.0.2 DU tf9992] GigabitEthernet2/0/0 | 和 
20.0.0.0/8 20.0.0.1 U t[9992] GigabitEthernet4/0/0 


首先 ， 目 的 地 址 9.1.2.1 与 FIB 表 ( 见 表 1-1) 中 各 表 项 的 掩 友 “0、8、16” 做 “ 远 
辑 与 ”运算 ， 得 到 下 面 的 网 段 地 址 : 0.0.0.0/0、9.0.0.0/8、9.1.0.0/16。 这 三 个 结果 可 以 匹 
配 到 FIB 表 中 对 应 的 三 个 表 项 。 最 终 ， 路 由 器 会 选择 最 长 匹配 9.1.0.0/16 表 项 ， 从 接口 
GE2/0/0 转发 这 条 目的 地 址 是 9.1.2.1 的 报 文 。 

表 1-1 display fib 输出 解释 

FIB Table FIB 表 

Total number of Routes 路 由 表 总 数 
Destination/Mask 目的 地 址 / 掩 码 长 度 

Nexthop 下 一 跳 
当前 标志 ，G、H、U、S、D、B 的 组 合 。 
。G (Gateway 网 关 路 由 ): 表示 下 一 跳 是 网 关 ; 
。 HH (Host 主机 路 由 ): 表示 该 路 由 为 主机 路 由 ; 
。U (Up 可 用 路 由 ): 表示 该 路 由 状态 是 Up 


Flag 。S (Static 静态 路 由 ) 
。D (Dynamic 动态 路 由 ) 
。B (Black Hole 黑洞 路 由 ): 表示 下 一 跳 是 空 接口 ; 
。 L(Vlink Route): 表示 Vlink 类 型 路 由 
TimeStamp 时 间 戳 ， 表 示 该 表 项 存在 的 时 间 ， 单 位 是 秒 
Interface 到 目的 地 址 的 出 接口 
es 隧道 标识 符 。 如 果 报 文 到 下 一 跳 需 通过 MPLS 转发 ， 其 Tunnel ID 不 为 


0; 如 果 报 文通 过 下 转发 ， 其 TunnelID 为 0 
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1.2.3 ”路 径 选择 


1.2.3.1 选 路 规则 
路 由 设备 上 多 个 协议 同时 提供 到 同一 目标 网 络 的 路 由 ， 仅 最 佳 路 由 进入 路 由 表 。 最 


佳 路 由 的 选择 依据 如 下 规则 : 
规则 1: 首先 ,选择 Preference 高 的 路 由 (数值 越 小 表明 优先 级 越 高 )， 若 未 能 抉择 ， 
进入 规则 2; 


规则 2: 如 果 路 由 具有 相同 的 Preference， 再 选择 协议 内 部 优先 级 高 的 路 由 ， 若 未 能 
抉择 ， 进 入 规则 3; 

规则 3: 如 果 路 由 具有 相同 优先 级 又 属于 同一 协议 ， 则 优选 cost 值 低 的 路 由 ， 如 果 
路 由 cost 值 相同 则 有 条 件 形 成 负载 分 担 ， 如 果 形 成 负载 分 担 的 路 由 条 数 超出 系统 限定 的 
最 大 值 m， 则 只 选取 前 m 条 作为 活跃 路 由 。 

1.2.3.2 ”负载 分 担 转 发 

负载 分 担 (Load Balance)， 指 的 是 网 络 节点 在 转发 流量 时 ， 将 负载 (流量 ) 分 挫 到 
多 条 链 路 上 进行 转发 ， 包 括 路 由 负载 分 担 、 隧 道 负载 分 担 和 Eth-Trunk 负载 分 担 。 

优点 : 

。 负载 分 担 将 流量 分 担 到 多 条 链 路 上 ， 可 以 增加 链 路 总 带宽 ， 并 减少 由 于 某 些 链 

路 负担 过 重 造成 的 阻塞 状况 ; 
。 ”由 于 负载 分 担 的 链 路 之 间 相互 形成 备份 关系 ， 其 中 一 条 链 路 故障 时 ， 流 量 可 以 
自动 切换 到 其 他 可 用 的 链 路 上 继续 转发 ， 从 而 提高 链 路 可 靠 性 。 

缺点 : 

由 于 流量 转发 具有 一 定 的 随机 性 ， 因 此 负载 分 担 可 能 不 利于 对 业务 流量 的 管理 。 

负载 分 担 依 对 接收 的 连续 数据 包 的 处 理 又 分 为 : 逐 包 负载 分 担 和 逐 流 负载 分 担 。 

1. 逐 包 负 载 分 担 

当 配 置 负载 分 担 的 方式 为 逐 包 负载 分 担 时 ， 路 由 器 在 转发 去 往 同 一 目的 地 的 连续 多 
个 报 文 时 ， 根 据 路 由 表 的 路 径 , 在 他 层 依次 通过 各 条 路 径 发 送 ， 也 就 是 总 是 选择 与 上 一 
次 不 同 的 下 一 跳 地 址 发 送 报 文 ， 即 逐 包 地 负载 分 担 。 

2. 未 流 负载 分 担 

当 配 置 负载 分 担 的 方式 为 逐 流 负载 分 担 时 ， 路 由 器 根据 人 P 报 文中 五 元 组 信息 ( 源 地 
址 、 目 的 地 址 、 源 端口 、 目 的 端口 、 协 议 ) 进行 路 由 转发 。 当 发 现 五 元 组 信息 相同 时 ， 
路 由 器 总 是 选择 与 上 一 次 相同 的 下 一 跳 地 址 发 送 报 文 。 当 发 现 五 元 组 信息 不 同时 ， 路 由 
器 会 根据 Hash 计算 的 散 列 值 选取 路 径 进行 转发 。 所 以 很 多 时 候 我 们 都 把 五 元 组 相同 的 
报 文 称 为 流 。 实 际 中 ，FIB 的 转发 都 是 基于 流 完成 的 ， 即 使 流量 负载 分 担 ， 也 是 基于 流 
的 负载 分 担 ， 一 条 流 走 这 条 路 径 ， 另 外 一 条 流 走 其 他 路 径 ， 但 这 种 负载 分 担 并 不 是 流量 
均衡 分 配 的 。 


说 明 : 
(1) 默认 情况 下 ，VRP 使 用 基于 流 的 负载 分 担 ， 可 以 通过 命令 load-balance packet 改 
变 负载 分 担 方式 为 逐 包 方式 。 目 前 ， 支 持 负载 分 担 的 路 由 协议 为 RIP、OSPF、BGP 和 1S-IS， 


es 
静态 路 由 也 支持 负载 分 担 ， 最 多 支持 8 条 路 由 。 路 由 协议 可 自 定 义 最 大 可 支持 的 等 价 路 
由 的 数量 ， 使 用 命令 maximum load-balancing [number] ，Number 最 大 值 为 8。 
(2) 数据 流 是 指 一 组 具有 某 个 或 某 些 相同 属性 的 数据 包 。 这 些 属 性 有 源 MAC 地 址 、 
目的 MAC 地 址 、 源 P 地址 、 目 的 IP 地址 、TCP/UDP 的 源 端口 号 、TCP/JUDP 的 目的 端口 号 等 ， 
逐 流 负载 分 担 基于 五 元 组 。 


例如 ， 如 图 1-3 所 示 ，R1 转发 报 文 到 目的 地 10.1.1.0/24， 待 发 送 的 报 文 为 P1、P2、 
P3、P4、P5、P6。 报 文 发 送 的 过 程 是 : 

如 果 R1 是 逐 包 负 载 分 担 的 ， 报 文 转发 是 第 一 份 报 文 Pl 经 R2 转发 ， 第 二 份 报 文 P2 
经 R3 转发 。 同 理 ， 第 三 份 报 文 P3 经 R2 转发 ，P4 经 R3 转发 ，P5 经 R2 转发 ，P6 经 
R3 转发 。 

例如 ， 如 图 1-4 所 示 ，R1 已 经 通过 接口 GE1/0/0 转发 到 目的 地 址 10.1.1.0/24 的 第 1 
个 报 文 P1， 随 后 又 需要 分 别 转发 报 文 到 目的 地 址 10.1.1.0/24 和 10.2.1.0/24。 其 转发 
过 程 如 下 。 
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图 1-3 逐 包 负 载 分 担 图 1-4 逐 流 负载 分 担 


当 转 发 到 达 10.1.1.0/24 的 第 2 个 报 文 P2 时 ， 发 现 此 报 文 与 到 达 10.1.1.0/24 的 第 1 
个 报 文 Pl 的 五 元 组 一 致 。 所 以 之 后 到 达 该 目的 地 的 报 文 都 从 G0/0/1 转发 。 

当 转 发 到 达 10.2.1.0/24 的 第 1 个 报 文 P1 时 ”发 现 此 报 文 与 到 达 10.1.1.0/24 的 第 1 
个 报 文 P1 的 五 元 组 不 一 致 。 根 据 Hash 计算 选取 从 G0/0/2 转发 ， 并 且 之 后 到 达 该 目的 地 
的 报 文 都 从 G0/0/2 转发 。 

1.2.3.3 ”负载 分 担 算法 

逐 包 负载 分 担 ， 设 备 启用 了 一 个 定时 器 ， 每 来 一 个 包 ， 计 数 器 加 1， 根 据 计 数 器 的 
值 选 择 出 接口 。 

逐 流 负载 分 担 采 用 哈 希 算法 ， 因 逐 流 负载 分 担 应 用 较为 广泛 ， 本 文 重点 介绍 逐 流 负 
载 分 担 的 哈 希 算法 。 

(1) 哈 希 算法 

哈 希 算法 将 任意 长 度 的 二 进 制 值 按 某 种 哈 希 函 数 映 射 为 固定 长 度 的 较 小 二 进 
制 值 ， 这 个 小 的 二 进 制 值 称 为 哈 希 值 。 计 算出 哈 希 值 后 ， 设 备 再 根据 哈 希 值 按 某 
种 算法 映射 到 出 接口 ， 并 将 报 文 从 对 应 的 出 接口 发 送 。 逐 流 负载 分 担 就 是 采用 哈 
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希 算法 。 

(2) 哈 希 因子 

哈 希 算法 的 输入 是 各 报 文 的 特征 值 ， 被 称 为 “ 哈 希 因子 ”。 可 作为 哈 希 因 子 的 报 文 
特征 值 包括 但 不 限于 : 


。 以太 帧 头 : 源 MAC、 目 的 MAC; 
。 IP 首部: 源 了 下、 目的 耻 、 协 议 号 ; 
。 TCP/UDP 首部 : 源 端 口号 、 目 的 端口 号 ; 
。 MPLS 首部 ，MPLS 标签 、 报 文 负载 的 某 些 比特 位 ; 
e  L2TP 报 文 : Tunnel ID 和 Session ID。 
(3) 哈 希 因子 与 负载 分 担 效果 
如 果 哈 希 因 子 散 列 性 较 好 ， 则 哈 希 算法 得 出 的 负载 分 担 将 会 更 均匀 。 如 果 网 
络 流量 类 型 过 于 复杂 ， 单 纯 依 靠 上 述 哈 希 因 子 进 行 散 列 ， 有 时 不 能 取得 最 佳 的 分 担 
效果 。 
为 了 得 到 更 好 的 负载 分 担 效果 ， 设 备 允 许 用 户 根 据 流量 类 型 人 为 选择 最 佳 的 哈 希 因 
子 。 如 果 选 择 了 最 适合 的 哈 希 因子 仍然 不 能 得 到 较 满 意 的 负载 分 担 效果 ， 可 以 设置 哈 希 
加 扰 值 ， 增 强 哈 希 因 子 的 散 列 性 ， 从 而 取得 更 好 的 负载 分 担 效果 。 
逐 流 和 逐 包 的 比较 : 
逐 包 比 逐 流 的 负载 均衡 程度 好 。 逐 流 的 均衡 程度 取决 于 负载 分 担 的 规则 和 业务 流量 
特征 。 
逐 包 的 缺点 是 可 能 导致 报 文 乱 序 。 
在 逐 包 场 景 下 ， 以 下 因素 的 影响 会 导致 报 文 乱 序 。 
。 链 路 质量 差 导致 报 文 乱 序 。 当 链 路 质量 较 差 时 ， 会 存在 不 同 延 时 ， 链 路 丢 包 、 
错 包 ， 因 此 导致 报 文 到 达 对 端 后 乱 序 。 

。 数据 包 大 小 不 均 ， 被 混合 发 送 时 ， 在 链 路 传输 速率 一 定 的 情况 下 ， 长 度 较 小 的 
数据 包 即 使 晚 于 长 度 较 大 的 数据 包 被 送 到 链 路 上 ， 也 可 能 会 先 到 达 对 端 。 因 此 
采用 逐 包 负载 分 担 时 ， 需 要 考虑 现 网 业务 是 否 容忍 乱 序 ， 所 在 链 路 是 否 有 保 序 


的 功能 。 
。 ”由 于 逐 包 方式 可 能 导致 报 文 乱 序 ， 对 报 文 顺序 非常 敏感 的 语音 、 视 频 等 关键 业 
务 不 建议 使 用 逐 包 方式 。 


华为 路 由 器 默认 使 用 逐 流 方 式 的 负载 分 担 。 

负载 分 担 有 两 种 ,“ 等 成 本 ”负载 分 担 和 “不 等 成 本 ”负载 分 担 。 

1. 等 成 本 的 负载 分 担 

等 成 本 负载 分 担 ECMP (Equal-Cost Multiple Path)， 是 指 到 达 同 一 目的 地 有 多 条 等 
价 链 路 ， 流 量 在 这 些 等 价 链 路 上 平均 分 配 ， 不 会 考虑 链 路 带宽 的 差异 。 等 价 链 路 是 指 到 
达 目 的 地 的 cost 值 相 等 的 链 路 /路 径 。 

ECMP 的 缺点 是 在 路 径 间 带宽 差异 大 时 ， 带 宽 利用 率 低 。 如 图 1-5 所 示 ， 流 量 在 三 
条 路 径 上 负载 分 担 ， 其 中 路 径 的 带宽 分 别 是 10Mbit/s、20Mbit/s 和 30Mbit/s， 如 果 部 署 
ECMP， 则 总 带宽 只 能 达到 30Mbit/s， 利 用 率 最 多 只 能 到 50%。 
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开销 比 LinkA : LinkB : LinkC=1:1:1 
带宽 比 LinkA : LinkB : LinkC=1:2:3 
流量 比 LinkA : LinkB : LinkC=1: 1:1 





mr 
一 一 


图 1-5 ECMP 示意 图 


说 明 : 

@ 当 多 条 路 由 的 路 由 优先 级 和 路 由 度量 都 相同 时 ， 这 几 条 路 由 就 称 为 等 价 路 由 ， 
多 条 等 价 路 由 可 以 同时 出 现在 路 由 表 中 实现 流量 负载 分 担 。 当 这 几 条 路 由 为 非 
等 价 路 由 时 ， 就 可 以 实现 路 由 备份 。 

e 路 由 器 支持 多 路 由 模式 ， 即 允许 配置 多 条 目的 地 相同 且 优 先 级 也 相同 的 路 由 。 
当 到 达 同 一 目的 地 存在 同一 路 由 协议 发 现 的 多 条 路 由 ， 且 这 几 条 路 由 的 开销 值 
也 相同 时 ， 那 么 就 满足 负载 分 担 的 条 件 。 这 种 方式 可 以 提高 网 络 中 链 路 的 利用 
率 及 减少 因 某 些 链 路 负担 过 重 而 出 现 数据 报 文 阻塞 的 情况 。 到 同一 目的 地 的 多 
个 协议 若 有 多 条 路 由 ， 华 为 设备 是 无 法 做 到 在 多 协议 间 负 载 分 担 的 。 

e Maximum load-balancing [number]: 参数 number， 可 以 限制 进行 负载 分 担 的 等 价 路 由 数 。 


2， 非 等 成 本 负载 分 担 

非 等 成 本 负载 分 担 UCMP (Unequal-Cost Multiple Path)， 是 指 到 达 同 一 目的 地 有 多 

条 带宽 不 同 的 等 价 链 路 ， 流 量 根据 带宽 按 比例 分 担 到 各 条 链 路 上 。 这 样 所 有 链 路 可 根据 
带宽 比例 分 担 流 量 ， 提 高 链 路 带宽 利用 率 ， 如 图 1-6 所 示 。 

开销 比 LinkA :LinkB:LinkC 


一 让 
带宽 比 LinkA : LinkB: LinkC=1: 
流量 比 LinkA : LinkB: LinkC=1: 
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图 1-6 UCMP 示意 图 


说 明 : 

对 于 Trunk 接口 负载 分 担 ， 没 有 ECMP 和 UCMP 的 概念 ， 但 是 也 有 类 似 的 功能 。 例 如 ， 
将 不 同 速 率 的 接口 (如 千 兆 以太 网 接口 和 快速 以 太 网 接口 ) 捆绑 到 同一 个 Trunk 接口 ， 并 
为 各 成 员 口 配置 权重 ， 则 流量 按 权 重 分 担 到 各 成 员 链 路 上 ， 类 似 于 UCMP。 默 认 情 况 下 ， 
Trunk 成 员 口 的 权重 值 都 类 似 于 ECMP, 但 每 个 成 员 接口 的 转发 能 力 只 能 达到 能 力 最 低 的 接 
口 的 水 平 。 
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在 使 用 Eth-Trunk 转发 数据 时 ， 由 于 聚合 组 两 端 设备 之 间 有 多 条 物理 链 路 ， 就 会 产生 
同一 数据 流 的 第 一 个 数据 帧 在 一 条 物理 链 路 上 传输 ， 而 第 二 个 数据 帧 在 另外 一 条 物理 链 
路 上 传输 的 情况 。 这样 一 来 ， 同 一 数据 流 的 第 二 个 数据 帧 就 有 可 能 比 第 一 个 数据 帧 先 到 
达 对 端 设备 ， 从 而 产生 接收 数据 包 乱 序 的 情况 。 

为 了 避免 这 种 情况 的 发 生 ，Eth-Trunk 柔 用 逐 流 负载 分 担 的 机 制 ， 这 种 机 制 把 数据 帧 中 
的 地 址 通过 Hash 算法 生成 Hash-Key 值 ， 然 后 根据 这 个 数值 在 Eth-Trunk 转发 表 中 寻找 对 应 
的 出 接口 ， 不同 的 MAC 或 IP 地址 Hash 得 出 的 Hash-Key 值 不 同 ; 从 而 出 接口 也 就 不 同 。 这 
样 既 保 证 了 同一 数据 流 的 帧 在 同一 条 物理 链 路 转发 ， 又 实现 了 流量 在 聚合 组 内 各 物理 链 
路 上 的 负载 分 担 ， 即 逐 流 的 负载 分 担 。 逐 流 负 载 分 担 能 保证 包 的 顺序 ， 但 不 能 保证 带宽 
利用 率 。 


对 非 等 成 本 负载 分 担 的 特别 说 明 如 下 。 

。 UCMP 目前 只 支持 逐 流 方式 。 如 果 同 时 配置 UCMP 和 逐 包 方 式 ， 则 采用 逐 包 方 
式 的 等 成 本 负载 分 担 ，UCMP 不 生效 。 

。 在 各 条 非 等 价 负载 分 担 路 径 中 ， 任 一 条 链 路 的 带宽 不 能 小 于 总 带宽 的 1/116。 否 
则 该 链 路 不 参与 非 等 价 负载 分 担 。 

e。 目前 , 支持 非 等 成 本 负载 分 担 功能 的 接口 包括 Ethernet 接口 、ATM 接口 、Serial 
接口 、MP 接口 、GE 接口 、POS 接口 、IP-Trunk 接口 、Eth-Trunk 接口 、TE Tunnel 
接口 。 

1.2.3.4 华为 负载 分 担 实 现 

1. 华为 的 ECMP 实现 

在 目前 华为 路 由 器 的 实现 中 ,支持 负载 分 担 的 路 由 协议 包括 RIP、RIPng、OSPF、 
OSPFv3、IS-IS 和 BGP。 此 外 ， 融 态 路 由 也 支持 负载 分 担 。 

在 路 由 选 路 时 ， 多 条 路 由 要 形成 负载 分 担 ， 要 求 这 些 路 由 必须 是 等 价 路 由 。 而 不 同 
协议 的 路 由 ， 无 法 评价 其 是 等 价 还 是 不 等 价 。 因 此 ， 参 与 路 由 负载 分 担 的 多 条 路 由 必定 
是 属于 同一 个 路 由 协议 ; 不 同 路 由 协议 的 路 由 无 法 形成 负载 分 担 。 其 他 IGP 路 由 协议 及 
BGP 协议 的 负载 分 担 请 参考 相应 章节 。 此 处 仅 介 绍 华为 静态 路 由 的 负载 分 担 实现 。 

。 如果 存在 相同 前 缀 的 多 条 静态 路 由 ， 则 其 中 有 几 条 活跃 的 静态 路 由 ， 就 形成 几 

路 负载 分 担 ， 静 态 路 由 负载 分 担 不 要 求 cost 值 相等 。 

。 ”对 于 一 条 静态 路 由 ， 如 果 它 是 活跃 的 ， 且 存在 多 个 迭代 下 一 跳 ， 则 有 几 个 迭代 
下 一 跳 ， 就 形成 几 路 负载 分 担 。 这 种 情况 称 为 迭代 负载 分 担 。 

示例 : 


172.1.1.2/32 













GE1/0/0 GE1/0/0 
172.1.1.33/30 172.1.1.34/30 





GE1/0/2 GE1/0/0 
172.1.1.46/30 172.1.1.45/30 













GE2/0/0 GE2/0/0 
R1 172.1.1.37/30 172.1.1.38/30 
172.1.1.41/30 sub 172.1.1.42/30 sub 


图 1-7 ”静态 路 由 配置 





R2 R3 
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。 ”如 果 在 Rl1 上 配置 如 下 一 条 静态 路 由 : 

ip route-static 172.1.1.44 30 172.1.1.2 inherit-cost 

虽然 只 配置 了 一 条 路 由 ， 但 存在 两 个 迭代 下 一 跳 〈172.1.1.34 和 172.1.1.38)， 因 此 
这 条 静态 路 由 是 负载 分 担 的 (此 静态 路 由 的 路 由 表 项 计数 为 1， 但 FIB 转发 表 项 计数 
为 2)。 

。 如 果 在 RI 上 新 增 一 条 静态 路 由 : 

ip route-static 172.1.1.44 30 172.1.1.42 

则 形成 了 三 路 负载 分 担 ， 尽 管 三 条 路 径 的 cost 值 不 一 样 。 

。 ”如 果 将 新 增 的 静态 路 由 改 为 

ip route-static 172.1.1.44 30 172.1.1.42 preference 1 

则 R1 优选 下 一 跳 为 172.1.1.42 的 静态 路 由 ， 其 他 静态 路 由 变 为 非 活 跃 路 由 ,不 再 是 
负载 分 担 。 

2. 华为 的 UCMP 实现 

华为 提供 基于 接口 的 UCMP 功能 , 使 等 价 路 由 可 根据 出 接口 带宽 不 同 而 分 担 不 同比 
例 的 流量 ， 这 种 在 出 接口 上 实现 的 UCMP 功能 和 路 由 协议 无 关 ， 可 应 用 在 任何 场景 下 。 

在 设备 的 路 由 表 中 ， 如 果 关 于 数据 报 文 目的 网 段 存在 多 条 等 价 路 由 ， 则 这 些 等 价 路 
由 链 路 可 以 形成 等 价 链 路 。 但 是 若 这 些 等 价 链 路 带宽 不 同 ， 同 时 存在 高 速 链 路 和 低速 链 
路 ， 某 些 路 由 协议 默认 不 考虑 链 路 带宽 的 差异 ， 将 在 这 些 等 价 链 路 上 平均 分 配 流量 ， 这 
种 情况 容易 造成 低速 链 路 流量 阻塞 以 及 高 速 链 路 的 带宽 不 能 得 到 有 效 利 用 的 问题 ， 静 态 
路 由 和 RIP 就 是 典型 的 例子 。 为 了 解决 这 个 问题 ， 用 户 可 以 在 出 接口 配置 非 等 价 负载 分 
担 UCMP 功能 , 开启 UCMP 功能 需 在 出 接口 子 视图 模式 下 键入 load-balance unequal-cost 
enable， 这 样 等 价 链 路 可 根据 带宽 不 同 而 分 担 不 同比 例 的 流量 ， 使 负载 分 担 更 合理 。 对 
于 逻辑 接口 , 也 可 以 使 能 UCMP 功能 ,但 必须 先 执行 load-balance bandwidth 命令 手动 配 
置 带 宽 ， 此 命令 仅 支 持 在 三 层 接口 下 进行 配置 。 针 对 子 接口 ， 仅 以 太 网 子 接口 (Dotlq 
终结 子 接口 和 QinQ 终结 子 接口 ) 和 Eth-trunk 子 接口 (Dotlg 终结 子 接口 ) 支持 配置 非 
等 价 负载 分 担 功 能 。 


说 明 : 

只 有 当 所 有 等 价 链 路 的 出 接口 都 使 能 UCMP 功能 ， 且 触发 了 FIB 表 项 重新 下 发 后 ， 各 
等 价 链 路 才 在 设备 上 进行 非 等 价 负载 分 担 。 如 果 其 中 任 一 接口 没有 使 能 UCMP 功能 ， 即 使 
触发 了 FIB 表 项 重新 下 发 ， 各 等 价 链 路 仍 进行 等 价 负 载 分 担 。 

对 于 AR150 系列 、AR160 系列 、AR200 系列 和 AR1200 系列 路 由 器 ， 在 各 条 非 等 价 负 载 分 
担 链 路 中 ， 任 一 条 链 路 的 带宽 不 能 小 于 总 带宽 的 4。 否则 该 链 路 不 参与 非 等 价 负载 分 担 。 

对 于 AR2200 系列 和 AR3200 系列 路 由 器 ， 在 各 条 非 等 价 负 载 分 担 链 路 中 ， 任 一 条 链 
路 的 带宽 不 能 小 于 总 带宽 的 1/8。 否 则 该 链 路 不 参与 非 等 价 负 载 分 担 。 

等 价 链 路 的 出 接口 启用 或 者 关闭 UCMP 功能 后 ， 需 要 在 接口 子 视图 模式 下 ， 使 用 
shutdown 和 undo shutdown 命 令 复 位 该 接口 ， 从 而 触发 FIB 表 项 重新 刷新 生效 。 


配置 示例 : 
图 1-8 中 ，R1 到 10.1.1.0/24 是 等 价 链 路 ，F0/0/1 和 F0/0/2 捆绑 成 ETH-TRUNK 1 和 
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G0/0/2 接口 都 转发 报 文 ，R1 使 能 不 等 成 本 负载 分 担 。 使 流量 按 比 例 在 两 个 方向 转发 。 
<R1> system-view 
[R1] interface eth-trunk 1 
[RI-Eth-Trunk1]quit 
[R1] interface fastethernet 0/0/1 
区 1-FastethemetO/0/1] eth-trunk 1 
[R1-Fastethemet0/0/1] quit 
[R1] interface fastethernet 0/0/2 
[R1-Fastethernet0/0/2] eth-trunk 1 
[R1-Fastethernet0/0/2]quit 
[R1] interface eth-trunk 1 
[R1-Eth- aa RD ee 
[RI-Eth:Tm 这 1oa ic 和 dwidt th 20 000( nh 





ee The he confion succeeded. Please shutdown the interface to make changes take effect. 





[RI or q 

[Rllinterface gigabitethernet 0/0/2 

[R1-GigabitEthernet0/0/2] load-balance unequal-cost enable 

Warning: The configuration succeeded. Please shutdown/undo shutdown the interface to make changes take effect. 
[R1-GigabitEthernet0/0/2] shutdown 

[R1-GigabitEthernet0/0/2] undo shutdown 

# 以 下 是 R2 的 配置 


[R2] interface eth-trunk 1 

[R2-Eth-Trunkl]aquit 

[R2] interface fastethernet 0/0/1 

[R2-Fastethernet0/0/1] eth-trunk 1 

[R2-Fastethernet0/0/1] quit 

[R2] interface fastethernet 0/0/2 ，， 

[R2-Fastethernet0/0/2] eth-trunk 1 

[R2-Fastethernet0/0/2]quit 

未 启用 上 述 配 置 时 ， 路 由 表 中 到 10.1.1.0/24 是 等 成 本 负载 分 担 ， 完 成 上 述 配置 后 ， 
RI1 访问 10.1.1.0/24， 流 量 按 1:5 比例 转发 给 Eth-trunkl 和 G0/0/2。 

1.2.3.5 路 由 备份 

在 网 络 设计 过 程 中 ， 需 要 考虑 到 网 络 的 可 靠 
性 ， 可 以 根据 实际 情况 ， 设 计 到 同一 目的 地 的 多 条 
路 由 ， 其 中 一 条 路 由 的 优先 级 最 高 ， 作 为 主 路 由 ; 
其 余 的 路 由 优先 级 较 低 ， 作 为 备份 路 由 。 主 路 由 会 
出 现在 路 由 表 中 , 而 备份 路 由 不 会 出 现在 IP 路 由 表 
中 ， 仅 仅 存放 在 协议 路 由 表 中 ， 当 路 由 表 中 主 路 由 图 1-8 ” 非 等 成 本 负载 分 担 
由 于 故障 原因 在 路 由 表 中 被 删除 后 ,最 优 的 备份 路 由 将 进入 路 由 表 , 实现 路 由 备份 功能 。 

正常 情况 下 ， 路 由 器 采用 路 由 表 中 主 路 由 的 接口 链 路 路 径 转 发 数据 。 当 该 接口 出 现 
故障 时 ， 主 路 由 变 为 非 激活 状态 ， 路 由 器 选择 备份 路 由 中 优先 级 最 高 的 路 由 转发 数据 。 
这 样 ， 也 就 实现 了 主 路 由 到 备份 路 由 的 切换 。 当 主 链 路 恢复 正常 时 ， 由 于 主 路 由 的 优先 
级 最 高 ， 路 由 器 重新 选择 主 路 由 来 发 送 数据 。 这 样 ， 就 实现 了 从 备份 路 由 回 切 到 主 路 由 。 

路 由 备份 可 以 有 3 种 实现 方式 。 
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(1) 通过 Preference 的 优先 级 别 实现 。preference 值 小 的 路 由 协议 的 路 由 会 出 现在 下 
路 由 表 中 ，preference 值 大 的 其 他 协议 路 由 虽 不 出 现在 IP 路 由 表 中 ， 但 可 以 出 现在 各 自 
协议 的 路 由 表 里 。 
(2) 调整 Cost， 同 一 路 由 协议 的 多 条 路 由 中 ，cost 成 本 小 的 是 主 路 由 。 
(3) 等 价 多 路 径 情 况 下 , 华为 提供 通过 nexthop 命令 实现 的 一 种 主 / 备 份 路 由 的 方案 。 
Nexthop 命令 在 路 由 协议 计算 出 多 条 等 价 路 由 时 ， 通 过 调整 某 条 路 由 的 weight 来 影 
响 进 路 由 表 的 路 由 。 该 命令 目前 仅 支 持 在 IS-IS、OSPF 路 由 协议 下 使 用 。 
Nexthop 命令 示例 : 
Nexthop 命令 用 来 设置 等 价 路 由 的 优先 级 , 在 OSPF 算出 等 价 路 由 后 , 再 根据 weight 
的 权重 值 从 这 些 等 价 路 由 中 选择 下 一 跳 ， 值 越 小 ， 优 先 级 越 高 。 当 网 络 中 存在 的 等 价 路 
由 数量 大 于 maximum load-balancing 命 令 配置 的 等 价 路 由 数量 时 ， 可 以 通过 nexthop 命令 
配置 路 由 的 优先 级 来 灵活 控制 放 入 IP 路 由 表 中 的 条 目 。 
配置 命令 : 
Nexthop ip-address weight value 
说 明 : 
指定 下 一 跳 权 重 ， 取 值 范围 是 1~ 254， 该 值 越 小 ， 路 由 优先 级 越 高 。 默 认 情 况 下 ， 
未 配置 weight 的 下 一 跳 其 权 值 为 255， 级 别 最 低 。 


如 图 1-9 所 示 ，R1 到 达 R4 的 10.1.1.0/24 网 段 有 两 条 路 径 可 达 ， 下 一 跳 分 别 为 R2 
和 R3， 由 于 cost 值 相 同 ， 在 路 由 表 中 是 等 价 负载 分 担 的 。 通 过 nexthop 命令 来 优先 选择 
一 条 路 由 放 进 路 由 表 。 


172.16.0.0/24 





图 1-9 路 由 备份 


# 设置 OSPF 中 等 价 路 由 的 优先 级 

<R1> system-view 

[Rijdis ip routing-table 《配置 nexthop 之 前 ) 

Destination/Mask Proto Pre Cost Flags NextHop Interface 


172.16.0.0/24 IS-IS-L215 20 D O12 GigabitEthernet0/0/1 
IS-IS-L215 -20 D 10.1.13.3 GigabitEthernet0/0/2 
[Rl]isis 1 
[Rl-isis-1] nexthop 10.1.12.2 weight 1 
[Rl-isis-1]g 这 全 
[Rlldis ip routing-table 《配置 nexthop 之 后 ) 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
172.16.0.0/24 IS-IS-L215 20 D 10.1.12.2 GigabitEthernet0/0/1 
说 明 : 


在 OSPF 进程 中 设置 下 一 跳 为 R2 的 地 址 10.1.12.2, 将 weight 值 改 为 1, 比 R3 更 优 ( 默 
认 255)， 那 么 R1 将 只 会 放置 一 条 路 由 仅 RIB 和 FIB， 下 一 跳 指向 R2。 
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1.2.4 路 由 的 度量 


路 由 的 度量 (metric) 标示 出 了 这 条 路 由 到 达 指 定 的 目的 地 址 的 代价 ， 通 常 以 下 因 
素 会 影响 到 路 由 的 度量 。 

1. 路 径 长 度 

路 径 长 度 是 最 常见 的 影响 路 由 度量 的 因素 。 链 路 状态 路 由 协议 可 以 为 每 一 条 链 路 设 
置 一 个 链 路 开销 来 标示 此 链 路 的 路 径 长 度 。 在 这 种 情况 下 ,路径 长 度 是 指 经 过 的 所 有 链 
路 的 链 路 开销 的 总 和 。 距 离 矢量 路 由 协议 使 用 跳 数 来 标示 路 径 长 度 。 跳 数 是 指数 据 从 源 
端 到 目的 端 所 经 过 的 设备 数量 。 例 如 ， 路 由 器 到 与 它 直接 相连 网 络 的 跳 数 为 0， 通过 一 
台 路 由 器 可 达 的 网 络 的 跳 数 为 1， 其 余 以 此 类 推 。 

2. 网 络 带 宽 

网 络 带 宽 是 一 个 链 路 实际 的 传输 能 力 。 例 如 ， 一 个 10 千 兆 的 链 路 要 比 1 千 兆 的 链 
路 更 优越 。 虽 然 带 宽 是 指 一 个 链 路 能 达到 的 最 大 传输 速率 ， 但 这 不 能 说 明 在 高 带宽 链 路 
上 路 由 要 比 低 带 宽 链 路 上 更 优越 。 比 如 说 ， 一 个 高 带宽 的 链 路 正 处 于 拥塞 的 状态 下 ， 那 
报 文 在 这 条 链 路 上 转发 时 将 会 花费 更 多 的 时 间 。 

3. 负载 

负载 是 一 个 网 络 资源 的 使 用 程度 。 计 算 负 载 方法 包括 CPU 的 利用 率 和 它 每 秒 处 理 数 
据 包 的 数量 。 持 续 监 测 这 些 参数 可 以 及 时 了 解 网 络 的 使 用 情况 。 

4. 通信 开销 

通信 开销 衡量 了 一 条 链 路 的 运营 成 本 。 尤 其 是 只 注重 运营 成 本 而 不 在 乎 网 络 性 能 的 
时 候 ， 通 信 开 销 则 就 成 了 一 个 重要 的 指标 。 

RIP 的 metric 由 跳 数 来 表示 , 不 超过 15 跳 , 16 跳 则 代表 目的 网 络 不 可 达 。 而 OSPF 
和 IS-IS 等 高 级 路 由 协议 都 可 使 用 和 接口 带宽 有 关系 的 度量 来 表示 ，metric 应 该 和 接 
口 的 带宽 和 延迟 都 有 直接 关系 ， 但 目前 标准 的 动态 协议 只 考虑 接口 带宽 生成 相应 的 


metric 值 。 
1.2.5 下 一 跳 


路 由 表 中 任何 条 目 都 需要 直 连 的 下 一 跳 ， 下 一 跳 即 是 控制 平面 的 路 由 通告 设备 ， 同 
时 也 是 数据 报 文 转发 的 路 由 器 。 
直 连 下 一 跳 和 非 直 连 下 一 跳 
。 ” 直 连 下 一 跳 是 在 IGP 路 由 协议 中 ， 由 直 连 邻居 通告 的 路 由 ， 下 一 跳 是 通告 路 由 
器 。 数 据 报 文 转发 直接 给 通告 路 由 的 下 一 跳 路 由 器 。 
。 非 直 连 下 一 跳出 现在 静态 路 由 和 BGP 场景 下 。 
% ”RIB 表 把 路 由 表 的 路 由 向 FIB 下 放 时 ,迭代 下 一 跳 为 直 连 的 下 一 跳 或 接口 。 
4 ”FIB 表 中 任何 路 由 都 会 关联 直 连 接口 和 直 连 的 下 一 跳 。 
路 由 指向 出 口 或 指向 下 一 跳 
在 路 由 需要 迭代 的 场景 中 , 当 IGP 路 由 或 隧道 发 生 切 换 时 , 快速 刷新 FIB 转发 路 径 ， 
实现 流量 的 快速 收敛 ， 降 低 对 业务 的 目的 影响 。 
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1.3 ”有 类 和 无 类 路 由 


1.3.1 有 类 路 由 协议 与 无 类 路 由 协议 


有 类 路 由 协议 在 产生 路 由 更 新 时 ， 并 没有 包含 路 由 所 对 应 的 子 网 掩 码 。 接 收 路 由 器 
要 根据 该 路 由 是 在 主 网 内 还 是 主 网 外 来 判定 是 否 为 掩 码 。 

无 类 路 由 协议 会 在 通告 的 路 由 中 携带 子 网 掩 码 。 

RIPv1 属于 有 类 路 由 协议 ， 而 RIPV2、OSPF 及 IS-IS、BGP 则 属于 无 类 路 由 协议 。 


1.3.2 有 类 查找 方式 和 无 类 查找 方式 


有 类 别 的 路 由 器 以 主 类 别 网 络 以 及 这 些 子 网 的 方式 来 记录 目的 地 址 。 当 执行 路 由 查 
找 时 首先 查找 主 类 别 路 由 ， 如 果 存 在 或 匹配 到 了 ， 再 查找 主 类 别 网 络 中 对 应 的 子 网 路 由 
条 目 。 而 无 类 别 的 路 由 器 查找 时 会 忽略 掉 地 址 类 别 ， 直 接 按 照 掩 码 “ 最 长 匹配 ”原则 进 
行 查 找 。 

例如 : 如 果 路 由 器 收 到 一 个 目标 地 址 为 192.168.1.76 的 数据 包 ， 在 路 由 表 中 有 以 下 
几 条 路 由 可 进行 匹配 : 192.168.0.0/16、192.168.1.0/24、192.168.1.0/25、192.168.1.64/26、 
0.0.00/0。 我 们 来 看 看 有 类 别 路 由 选择 和 无 类 路 由 选择 该 如 何 查 找 。 

。 有 类 路 由 器 查找 方式 

第 1 步 : 首先 查看 路 由 表 或 FIB 表 ， 是 否 有 对 应 的 A 类 或 B 类 或 C 类 主 网 路 由 条 
目 。 如 果 有 对 应 的 主 网 路 由 ， 则 继续 判断 是 否 该 主 网 中 有 对 应 的 子 网 。 如 果 没 有 匹配 的 
子 网 ， 则 报 文 丢 弃 。 即 使 路 由 表 中 有 缺 省 路 由 ， 也 不 会 去 匹配 到 该 路 由 。 

第 2 步 : 如 果 没 有 主 网 路 由 条 目 ， 则 可 以 查找 是 否 有 缺 省 路 由 条 目 ， 如 果 有 ， 则 按 
缺 省 路 由 来 转发 报 文 。 如 果 没 有 缺 省 路 由 ， 则 报 文 丢弃 。 

这 种 路 由 查找 方式 先 在 路 由 表 中 查找 主 网 路 由 ， 再 查找 子 网 路 由 ， 并 非 按 掩 码 长 度 
查找 最 佳 路 由 。 

示例 : 

如 果 一 个 数据 包 目 标 地 址 为 192.168.1.76， 路 由 器 首先 查找 到 主 网 条 目 为 192.168.1. 
0/24， 接 着 查找 到 主 网 下 的 子 网 192.168.1.64/26， 该 地 址 可 以 匹配 到 该 子 网 ， 因 此 可 以 
转发 。 如 果 一 个 数据 包 目 标 地 址 为 192.168.1.130， 路 由 器 首先 也 能 够 匹配 到 主 网 ， 但 是 
没有 查找 到 该 子 网 条 目 ， 最 终 该 数据 包 将 会 被 丢弃 掉 。 

e。 无 类 路 由 器 查找 方式 

如 果 收 到 一 个 数据 包 目 标 地 址 为 192.168.1.76， 参 考 最 长 的 匹配 原则 ， 按 照 上 述 的 
例子 将 会 匹配 到 192.168.1.64/26 条 目 。 如 果 路 由 表 中 最 长 匹配 都 没有 找到 路 由 ， 那 么 将 
会 匹配 到 最 不 精确 的 缺 省 路 由 。 

华为 路 由 器 采用 无 类 路 由 器 查找 方式 。 
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1.4 静态 路 由 


1.4.1 概述 


路 由 器 不 仅 支 持 静 态 路 由 ， 同 时 也 支持 RIP (Routing Information Protocol)、OSPF 
(Open Shortest Path First)、 IS-IS (Intermedia System-Intermedia System ) 和 BGP (Border 
Gateway Protocol) 等 动态 路 由 协议 。 

路 由 协议 是 路 由 器 之 间 维 护 路 由 表 的 规则 ， 用 于 发 现 路 由 ， 生 成 路 由 表 ， 并 指导 报 
文 转发 。 依 据 来 源 的 不 同 ， 路 由 可 以 分 为 三 类 。 

。 ”通过 链 路 层 协议 发 现 的 路 由 称 为 直 连 路 由 。 

。 ”通过 网 络 管理 员 手 动 配置 的 路 由 称 为 静态 路 由 。 

e ”通过 动态 路 由 协议 发 现 的 路 由 称 为 动态 路 由 。 


1.4.2 ”静态 路 由 与 动态 路 由 的 区 别 


静态 路 由 配置 方便 ， 对 系统 要 求 低 ， 适 用 于 拓扑 结构 简单 并 且 稳定 的 小 型 网 络 。 缺 
点 是 不 能 自动 适应 网 络 拓扑 的 变化 ， 需 要 人 工 干 预 。 

动态 路 由 协议 有 自己 的 路 由 算法 ， 能 够 自动 适应 网 络 拓扑 的 变化 ， 适 用 于 具有 一 定 
数量 三 层 设 备 的 网 络 。 缺 点 是 配置 对 用 户 要 求 比较 高 ， 对 系统 的 要 求 高 于 静态 路 由 ， 并 
将 占用 一 定 的 网 络 资源 和 系统 资源 。 


1.4.3 ”静态 路 由 


静态 路 由 是 一 种 需要 管理 员 手 工 配 置 的 特殊 路 由 。 
静态 路 由 在 不 同 网 络 环境 中 有 不 同 的 目的 。 
。 ” 当 网 络 结构 比较 简单 时 ， 只 需 配 置 静态 路 由 就 可 以 使 网 络 正常 工作 。 
。 在 复杂 网 络 环境 中 ， 配 置 静态 路 由 可 以 减少 不 必要 的 动态 路 由 协议 更 新 报 文 开 
销 ， 可 以 改进 网 络 的 性 能 ， 并 可 为 重要 的 应 用 保证 带宽 。 静 态 路 由 可 增加 网 络 
的 稳定 性 。 
。 ”静态 路 由 比 动态 路 由 使 用 更 少 的 带宽 ， 并 且 不 占用 CPU 资源 来 计算 和 分 析 路 由 
更 新 。 但 是 当 网 络 发 生 故障 或 者 拓扑 发 生变 化 后 ， 静 态 路 由 不 会 自动 更 新 ， 必 
须 手 动 重新 配置 ， 它 不 能 随 拓扑 的 变化 而 自动 调整 。 
静态 路 由 有 5 个 主要 的 参数 ， 目 的 地 址 和 掩 码 、 出 接口 和 下 一 跳 、 优 先 级 。 
(1) 目的 地 址 和 掩 码 
IPv4 的 目的 地 址 为 点 分 十 进 制 格 式 ， 掩 码 可 以 用 点 分 十 进 制 表示 ， 也 可 用 掩 码 长 度 
( 即 掩 码 中 连续 “1” 的 位 数 ) 表示 。 当 目的 地 址 和 掩 码 都 为 零 时 ， 表 示 静 态 缺 省 路 由 。 
静态 缺 省 路 由 是 较为 常见 的 一 种 静态 路 由 。 
(2) 出 接口 和 下 一 跳 地 址 
在 配置 静态 路 由 时 ， 根 据 不 同 的 出 接口 类 型 ， 指 定 出 接口 和 下 一 跳 地 址 。 
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对 于 点 到 点 类 型 的 接口 ， 只 需 指定 出 接口 。 因 为 点 到 点 协议 即使 不 需要 知道 下 一 跳 
地 址 报 文 也 能 发 给 对 方 节点 。 例 如 ，PPP 或 HDLC 协议 的 链 路 上 ， 可 以 不 指定 下 一 跳 地 
址 。 这 样 ， 即 使 对 端 地 址 发 生 了 改变 也 无 需 改变 该 路 由 器 的 配置 。 

对 于 NBMA (Non Broadcast Multiple Access) 类 型 的 接口 〈 如 FR 接口 )， 只 需 配 置 
下 一 跳 。 因 为 除了 配置 IP 路 由 外 ， 还 需 在 链 路 层 建立 IP 地 址 到 链 路 层 地 址 的 映射 。 

对 于 广播 类 型 的 接口 (如 以 太 网 接口 ) 和 VT (Virtual-Template) 接口 ， 必 须 指 定 通 
过 该 接口 转发 报 文 时 对 应 的 下 一 跳 地 址 。 因 为 以 太 网 接口 是 广播 类 型 的 多 路 访问 网 络 接 
口 ， 而 VT 接口 下 可 以 关联 多 个 虚拟 访问 接口 (Virtual Access Interface)， 这 都 会 导致 出 
现 多 个 下 一 跳 ， 如 果 不 配置 下 一 跳 ， 设 备 将 无 法 唯一 确定 下 一 跳 地 址 。 

说 明 : 

下 一 跳 地 址 一 定 是 直 连 的 下 一 跳 地 址 , 否则 会 引入 迭代 过 程 , 增加 查 表 延 迟 和 CPU 负荷 。 

(3) 静态 路 由 优先 级 

对 于 不 同 的 静态 路 由 ， 可 以 为 它们 配置 不 同 的 优先 级 ， 优 先 级 数字 越 小 ， 优 先 级 越 
高 。 配 置 到 达 相 同 目的 地 的 多 条 静态 路 由 ， 如 果 指 定 相 同 优先 级 ， 则 可 实现 负载 分 担 ; 
如 果 指 定 不 同 优 先 级 ， 则 可 实现 路 由 备份 。 

华为 设备 静态 路 由 如 果 不 配置 优先 级 ， 默 认 优先 级 为 60。 

例如 ， 修 改 下 一 跳 是 10.1.12.1 的 静态 路 由 100.1.1.0/24 的 Preference 为 最 优 。 


[Huaweilip route-static 100.1.1.0 24 10.1.12.2 preference 1 


1.5 动态 路 由 协议 


1.5.1 概述 


静态 路 由 是 通过 手动 添加 路 由 信息 进入 路 由 表 ， 但 是 静态 路 由 不 能 感知 到 非 直 连 的 
网 络 故障 ， 一 旦 拓扑 发 生变 化 ， 路 由 表 也 不 会 进行 自动 更 新 ， 容 易 造成 路 由 黑洞 。 而 动 
态 路 由 协议 能 够 进行 自动 学 习 并 构建 路 由 表 ， 它 能 实时 地 适应 网 络 发 生 的 变化 。 如 果 拓 
扑 发 生 了 改变 ， 路 由 协议 会 通过 各 自 的 算法 重新 计算 路 径 并 生成 新 的 路 由 信息 。 动 态 路 
由 协议 更 适用 于 网 络 规模 大 及 复杂 的 网 络 。 


1.5.2 ”动态 路 由 协议 的 分 类 


网 络 中 用 到 的 路 由 协议 有 很 多 种 ， 如 RIP、OSPF、IS-IS、BGP 等 ， 下 面 根据 每 个 
协议 不 同 的 特点 进行 区 分 。 

(1) 按照 应 用 范围 可 以 分 为 : 

。 IGP 内 部 网 关 协 议 ); 

。 EGP【〔 外 部 网 关 协 议 )。 

IGP (Interior Gateway Protocol， 内 部 网 关 协 议 ) 工作 在 一 个 自治 系统 以 内 的 路 由 协 
议 ， 比 如 : RIP、OSPF、IS-IS。 
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工作 在 不 同 的 自治 系统 之 间 的 路 由 协议 ， 如 BGPv4 协议 。 

(2) 按照 类 别 可 以 分 为 : 

。 有 类 路 由 协议 ; 

e ”无 类 路 由 协议 。 

有 类 路 由 协议 : 规定 路 由 协议 按照 IP 地 址 类 别 的 方式 来 通告 路 由 ， 卫 地 址 分 为 
A/B/C/D/E 5 个 类 别 ,， 在 路 由 更 新 时 只 有 IP 前 绥 而 不 携带 IP 子 网 掩 码 信 息 ， 因 此 该 类 型 
的 路 由 协议 在 路 由 传递 时 会 带 来 一 些 问 题 ， 目 前 很 少 使 用 该 类 型 的 协议 来 设计 网 络 。 有 
类 路 由 协议 的 代表 是 RIPvl 。 

无 类 路 由 协议 : 与 有 类 路 由 协议 最 大 的 不 同 是 ， 该 类 型 的 协议 在 路 由 更 新 时 不 仅 有 
IP 前 缀 也 有 网 络 掩 码 ， 而 掩 码 可 以 更 加 精细 划分 出 网 络 ID 和 主机 ID， 使 网 络 规划 更 加 
灵活 。 无 类 路 由 协议 包含 RIPv2、OSPF、IS-IS、BGPv4 等 。 

(3) 按照 算法 可 以 分 为 : 

。 ”距离 矢量 协议 ; 

。 路径 矢量 协议 ; 

。 链 路 状态 协议 。 


1.5.3 矢量 路 由 协议 


距离 矢量 路 由 协议 

所 有 的 路 由 信息 都 是 经 过 邻居 路 由 器 来 通告 的 。 每 台 路 由 器 收 到 路 由 后 首先 计算 出 
最 优 路 径 放 入 路 由 表 , 然后 再 将 路 由 表 所 有 条 目 通告 给 其 他 邻居 设备 ,收敛 相对 比较 慢 。 
例如 : RIP， 使 用 距离 矢量 路 由 协议 的 路 由 器 并 不 了 解 到达 目 标 网 络 的 整 条 路 径 ， 该 路 
由 器 只 知道 到 达 邻 居 的 路 径 ， 邻 居 以 外 的 拓扑 并 不 知晓 。 所 以 通过 某 个 邻居 收 到 的 路 由 
无 法 断定 其 是 否 是 自己 通过 其 他 邻居 通告 出 去 的 ， 易 发 生 环 路 。 

距离 适量 协议 的 工作 特点 : 

a) 路 由 器 之 间 不 需要 维持 整个 网 络 拓 扑 的 信息 , 所 有 路 由 条 目 都 是 来 自 邻 居 路 由 器 
所 通告 的 路 由 ; 

b) 报 文 简单 ， 通 过 周期 性 地 发 送 更 新 报 文 来 更 新 路 由 ; 

c) 每 台 设 备 收 到 邻居 的 更 新 后 ， 首 先 自己 先 计 算 路 由 ， 然 后 再 通告 给 其 他 的 邻居 ， 
收敛 速度 慢 ; 

d) 邻居 通告 有 问题 的 路 由 《〈 可 能 是 自己 在 其 他 方向 通告 出 去 的 路 由 ， 被 邻居 路 由 
器 通告 回来 )， 当 前 路 由 器 按 正常 路 由 接收 ， 容 易 形 成 环 路 。 

路 径 矢 量 协议 

只 有 BGP 协议 属于 该 类 型 ， 所 有 的 路 由 信息 中 包含 了 路 径 信息 ， 以 AS (自治 系统 ) 
作为 一 个 节点 ， 例 如 : 一 条 路 由 100.1.1.0/24， 经 过 的 AS_PATH 路 径 为 100 200， 说 明 该 
路 由 经 过 了 两 个 AS 才能 到 达 ， 而 每 个 AS 之 内 可 能 存在 多 个 路 由 器 ， 但 是 BGP 只 会 记 
录 AS 号 。BGP 通过 AS 号 来 判断 距离 ， 也 可 以 通过 其 防止 环 路 的 发 生 。 


1.5.4 链 路 状态 路 由 协议 
链 路 状态 路 由 选择 协议 又 称 为 最 短路 径 优先 协议 ， 如 OSPF、IS-IS， 它 基于 Edsger 
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Dijkstra 的 最 短路 径 优先 〈SPF) 算法 。 路 由 器 的 链 路 信息 称 为 链 路 状态 ， 包 括 : 接口 的 
IP 网 段 及 掩 码 、 链 路 的 开销 、 链 路 上 相 邻 的 路 由 器 等 。 链 路 状态 路 由 器 间 并 不 传递 “路 
由 ”， 而 是 通告 这 些 链 路 状态 信息 ， 这 些 链 路 状态 信息 泛 洪 到 每 一 台 路 由 器 ， 最 终 ， 每 台 
路 由 器 都 有 一 致 且 完整 的 链 路 状态 数据 库 ， 此 时 再 使 用 该 数据 库 和 最 短路 径 优先 〈SPF ) 
算法 来 计算 通 向 每 个 网 络 的 首选 〈 即 最 短 ) 路径。 在 全 网 拓扑 可 知 的 情况 下 计算 路 由 ， 
所 以 链 路 状态 路 由 协议 在 区 域内 绝对 无 环 。 

链 路 状态 路 由 协议 的 工作 特点 : 

a) 每 台 路 由 器 都 要 描述 直 连 接口 的 网 络 及 拓扑 信息 ， 并 把 这 些 所 谓 的 “ 链 路 ”状态 
使 用 LSU〔 链 路 状态 更 新 ) 沿 所 有 链 路 通告 给 邻居 ， 采 用 非 周期 的 方式 更 新 ; 

b) 每 台 设 备 收 到 LSU 后 ， 回 送 确认 并 把 它 复 制 到 LSDB， 并 向 其 他 非 入 口 邻居 以 
外 的 其 他 邻居 通告 ， 收 到 新 LSA 的 路 由 器 快速 收敛 到 全 网 ; 

c) 每 台 路 由 器 周期 或 当 拓扑 变化 时 根据 LSDB 中 的 信息 执行 SPF 计算 ; 

d) 当 拓扑 变化 时 ， 全 网 所 有 路 由 器 都 在 执行 同样 的 SPF 计算 ， 不 易 形 成 环 路 。 

图 1-10 说 明 矢量 路 由 通告 和 链 路 状态 协议 的 泛 洪 区 别 。 








(a) 





国 Link State EE Link state EE Link state Link State 
OQ Te 一 
flooding 
LS: Receive->forward->calculate 
(b) 


图 1-10 矢量 路 由 协议 和 链 路 状态 路 由 协议 路 由 通告 


图 1-10 (a): 矢量 路 由 被 路 由 器 收 到 ， 计 算 后 ， 传 递 给 邻居 路 由 器 。 
图 1-10(b): 路 由 器 收 到 泛 洪 的 LS 报 文 ， 接 收 并 继续 泛 洪 ， 本 地 开始 计算 路 由 。 
表 1-2 是 链 路 状态 和 矢量 路 由 协议 优 、 缺 点 及 应 用 场景 的 对 照 表 。 

表 1-2 链 路 状态 和 矢量 路 由 协议 对 照 表 
机 中 链 路 状态 路 由 协议 
路 由 收敛 快 
不 易于 出 现 环 路 

对 系统 要 求 高 ， 路 由 计算 开销 大 
缺点 Flooding 对 带宽 要 求 高 
路 由 控制 及 过 滤 不 灵活 

















原理 简单 ， 易 部 署 
路 由 过 滤 及 汇总 灵活 


易于 出 现 环 路 
路 由 收敛 慢 
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适合 中 大 型 网 络 
要 求 收敛 时 间 快 
对 开销 无 要 求 的 场合 





对 收敛 时 间 无 要 求 
路 由 控制 要 求 高 的 场合 


1.6 IPv6 


1.6.1 IPv6 概述 


1.6.1.1 IPv6 产生 的 背景 

IPv4 是 目前 广泛 部 署 的 互联 网 协议 ， 它 经 过 了 多 年 的 发 展 ， 已 经 非常 成 熟 ， 易 于 实 
现 ， 得 到 了 所 有 厂商 和 设备 的 支持 ， 但 也 有 一 些 不 足 之 处 。 

1. 能 够 提供 的 地 址 空间 不 足 且 分 配 不 均 

互联 网 起 源 于 20 世纪 60 年 代 的 美国 国防 部 ,每 台 连 上 网 的 设备 都 需要 一 个 全 地址 ， 
初期 只 有 上 干 台 设 备 联 网 ， 使 得 采用 32 位 长 度 的 IP 地 址 看 来 几乎 不 可 能 被 耗 尽 。 但 随 
着 互联 网 的 发 展 ， 用 户 数量 大 量 增加 ， 尤 其 随 着 互联 网 的 商业 化 后 ， 用 户 呈 现 几 何 倍数 
的 增长 ，IPv4 地 址 资源 即将 耗 尽 ，IPv4 可 以 提供 的 2” 个 地 址 ， 由 于 协议 设计 初 的 规划 
问题 ， 部 分 地 址 不 能 被 分 配 使 用 ， 如 D 类 地 址 〈 组 播 地 址 ) 和 EE 类 地 址 (实验 保留 )， 
造成 整个 地 址 空间 进一步 缩小 。 

另外 , 在 初期 看 来 是 不 可 能 被 耗 尽 的 瑟 地 址 , 在 具体 数量 的 分 配 上 也 是 非常 不 均匀 
的 ， 美 国 占 了 一 半 以 上 的 人 P 地 址 数量 ， 特 别 是 一 些 大 型 公司 比如 IBM， 申 请 并 获得 了 
1000 万 个 以 上 的 IP 地 址 ， 但 实际 上 往往 用 不 了 ， 形 成 非常 大 的 浪费 。 另 一 方面 ， 亚 洲 
人 口 众 多 , 但 获得 的 地 址 却 非常 有 限 。 据 统计 ， 中 国 拥有 的 了 P 地 址 数量 甚至 比 不 上 美国 
某所 大 学 。 在 亚洲 地 区 ， 由 于 人 口 众多 ， 互 联网 发 展 起 步 较 晚 ， 地 址 不 足 这 个 问题 显得 
更 加 突出 ， 进 一 步 地 限制 了 互联 网 的 发 展 和 壮大 。 

2. 互联 网 骨干 路 由 器 的 路 由 表 非 常 庞大 

由 于 IPv4 发 展 初期 缺乏 合理 的 地 址 规划 , 造成 地 址 分 配 的 不 连续 ， 导 致 当今 互联 网 
骨干 设备 的 BGP 路 由 表 非 常 庞 大 ， 已 经 达到 数 十 万 条 的 规模 ， 并 且 还 在 持续 增长 中 。 由 
于 缺乏 合理 的 规划 ， 也 导致 无 法 实现 进一步 的 路 由 汇总 ， 这 样 对 骨干 设备 的 处 理 能 力 和 
内 存 空 间 带 来 较 大 压力 ， 影 响 了 数据 包 的 转发 效率 。 

1.6.1.2 IPv4 的 工种 解决 方案 

针对 地 址 不 够 的 问题 ，IPv4 使 用 了 以 下 2 种 方案 解决 。 

1. CIDR (无 类 域 间 路 由 ) 

IPv4 早期 分 配 地 址 时 遵循 A 类 (8 位 )，B 类 (16 位 )，C 类 (24 位 ) 分 配 的 原则 ， 
比如 申请 B 类 地 址 会 分 配 到 65 535 个 地 址 ， 这 样 的 分 配方 式 会 造成 大 量 地 址 闲置 浪费 ， 
使 用 效率 低下 。CIDR 可 以 支持 任意 变 长 子 网 掩 码 ， 使 得 ISP 能 够 根据 用 户 的 需求 数量 
分 配 相 应 的 地 址 ， 从 而 提高 了 地 址 空间 的 利用 率 。 
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2. NAT ( 网络 地 址 转换 ) 

设计 思想 是 在 企业 内 部 使 用 私有 人 P 段 , 实现 企业 内 部 组 网 和 通信 互 访 , 在 需要 访问 
互联 网 的 时 候 ， 在 企业 出 口 通过 NAT 设备 对 IP 报 文 实现 私有 地 址 到 公 网 地 址 的 翻译 ， 
这 样 可 以 节约 大 量 公 网 地 址 的 使 用 。 

NAT 在 实际 环境 中 已 经 大 量 部 署 ， 可 以 缓解 IP 地 址 缺乏 的 问题 ， 但 也 存在 一 些 
问题 。 

破坏 了 端 到 端的 模型 ，NAT 设备 需要 建立 和 维护 一 张 NAT 的 状态 表 ， 增 加 了 网 络 
的 复杂 性 ， 一 些 需要 从 外 部 发 起 连接 的 应 用 将 无 法 实现 。 部 分 应 用 比如 FTP， 在 数据 部 
分 会 携带 IP 层 的 地 址 信息 ， 针 对 这 些 应 用 需要 单独 设计 ALG， 实 现 对 数据 部 分 的 修改 ， 
这 样 便 增 加 了 复杂 程度 ， 且 不 便于 扩展 。 

不 支持 端 到 端 安全 ， 由 于 NAT 设备 会 对 卫 头 甚 至 数据 部 分 进行 修改 ， 如 果 需 要 对 
数据 包 进 行 完整 性 验证 将 会 出 错 。 

网 络 重新 部 署 或 扩容 困难 ， 由 于 可 能 使 用 相同 的 私有 地 址 段 ， 在 网 络 合并 时 容易 出 
现 冲突 ， 需 要 重新 划分 地 址 或 者 使 用 2 次 NAT 实现 互 访 ， 增 加 了 维护 的 负责 性 和 难度 。 

1.6.1.3 1IPv6 的 优势 

1. 地 址 空间 巨大 

相 比 IPv4 的 地 址 空间 而 言 ，IPv6 可 以 提供 2“ 个 地 址 空间 ， 几 乎 不 会 被 耗 尽 ,可 以 
满足 未 来 网 络 的 任何 应 用 ， 比 如 物 联 网 等 新 应 用 。 

2. 层次 化 的 路 由 设计 

IPv6 地 址 规划 设计 时 ， 吸 取 了 IPv4 地 址 分 配 不 连续 带 来 的 问题 ， 采 用 了 层次 化 的 
设计 方法 ， 前 3 位 固定 ， 第 4 一 16 位 是 顶级 聚合 ， 理 论 上 ， 互 联网 骨干 设备 上 的 IPv6 路 
由 表 只 有 23=8192 条 路 由 信息 。 

3. 效率 高 ， 扩 展 灵活 

相对 于 IPv4 报头 大 小 的 可 变 成 20~60Byte，IPv6 报头 采用 定 长 设计 ， 大 小 固定 为 
40Byte。 相 对 IPv4 报头 中 数量 多 达 12 个 的 选项 ，IPv6 把 报头 分 为 基本 头 和 扩展 头 ， 
基本 头 中 只 包含 选 路 所 需要 的 8 个 基本 选项 ， 很 多 其 他 的 功能 都 设计 为 扩展 头 ， 这 样 
有 利于 路 由 器 的 转发 效率 ， 同 时 可 以 根据 新 的 需求 设计 出 新 的 扩展 头 ， 有 具有 良好 的 扩 
展 性 。 

4. 支持 即 插 即 用 

设备 连接 到 网 络 中 ， 可 以 通过 自动 配置 的 方式 获取 网 络 前 级 和 参数 ， 并 自动 结合 设 
备 自身 的 链 路 地 址 生成 人 PP 地址 ， 简 化 了 网 络 管理 。 

5. 更 好 的 安全 性 保障 

由 于 IPv6 协议 通过 扩展 头 的 形式 支持 IPSEC 协议 ， 无 需 借助 其 他 安全 加 密 设 备 ， 
可 以 直接 为 上 层 数据 提供 加 密 和 身份 验证 ， 保 障 数据 传输 的 安全 。 

6. 引入 了 流标 签 的 概念 

使 用 IPv6 新 增加 的 FLOW LABEL 字段 ， 加 上 相同 的 源 地 址 和 目的 地 址 ， 可 以 标记 
数据 包 同 属于 某 个 相同 的 流量 ， 业 务 可 以 根据 不 同 的 数据 流 进 行 更 细 的 分 类 ， 实 现 优先 
级 控制 ， 比 如 基于 流 的 QOS 等 应 用 , 适合 于 对 连接 的 服务 质量 有 特殊 要 求 的 通信 , 诸如 
音频 或 视频 等 实时 数据 传输 。 
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1.6.2 IPv6 地 址 


1.6.2.1 1IPv6 的 地 址 表示 

对 于 IPv4 的 32 位 地 址 ， 我 们 习惯 分 成 4 块 ， 每 块 有 8 位 ， 中 间 用 “.” 号 相隔 ， 为 
了 方便 书写 和 记忆 ， 一 般 换 算 成 十 进 制 表示 ， 比 如 11000000.10101000.00000001. 
00000001， 可 以 表示 为 192.168.1.1。 这 种 表达 方法 可 以 称 为 点 分 十 进 制 。 

对 于 IPv6 来 说 ， 我 们 把 16 位 分 成 1 块 ， 一 共 分 为 8 块 ， 每 块 用 “: ”相隔 。 下 面 就 
是 一 个 IPv6 地 址 的 完整 表达 : 

2001:0fe4:0001:2c00:0000:0000:0001:0bal 

显然 这 样 的 地 址 是 非常 不 便于 书写 和 记忆 , 所 以 在 这 个 基础 上 可 以 对 IPv6 的 地 址 表 
达 方 法 做 一 些 简 化 。 

。 简化 规则 1: 每 一 个 地 址 块 的 起 始 部 分 的 0 可 以 省 略 掉 。 

比如 上 述 地 址 可 以 简化 表达 为 : 

2001:fe4:1:2c00:0:0:1:bal 

需要 注意 : 只 有 每 个 地 址 块 的 前 面部 分 的 0 可 以 被 省 略 掉 ， 但 中 间 和 后 面部 分 的 0 
是 不 能 被 省 略 的 ， 因 为 将 无 法 确定 到 底 是 哪些 位 置 的 0 被 省 略 掉 。 在 上 述 例子 中 ， 第 5 
和 第 6 块 地 址 都 是 由 4 个 0 组 成 的 ， 可 以 简化 为 1 个 0。 

。 简化 规则 2: 有 1 个 或 连续 多 个 0 组 成 的 地 址 块 可 以 用 “::” 取 代 。 

上 述 地 址 又 可 以 简化 表达 为 : 2001:fe4:1:2c00::1:bal 

需要 注意 :~ 在 整个 地 址 中 ， 只 能 出 现 一 次 “::”， 比如 以 下 完整 的 IPv6 地 址 : 

2001:0000:0000:0001:0000:0000:0000:0001 

错误 的 简化 表达 : 2001::1::1， 由 于 上 述 表 达 方 式 中 出 现 了 2 次 “::” 将 导致 无 法 判 
断 具体 哪儿 块 地 址 被 省 略 ， 会 引起 歧义 。 

可 以 正确 表示 为 以 下 2 种 表达 方式 。 

表达 方式 1: 2001::1:0:0:0:1 

表达 方式 2: 2001:0:0:1::1 

IPv6 地 址 也 分 为 2 部 分 : 网 络 位 和 主机 位 ， 为 了 区 分 这 两 部 分 ， 在 IPv6 地 址 后 面 
加 上 “: /数字 (十进制 )” 的 组 合 ， 数 字 用 来 确定 从 头 开始 的 几 位 是 网 络 位 。 

例 : 2001::1/64。 

1.6.2.2 1IPv6 地 址 结构 

IPv6 的 地 址 是 接口 的 128bit 标识 ， 每 个 IPv6 地 址 由 以 下 2 部 分 构成 。 

。 网 络 前 级 : 相当 于 IPv4 中 的 网 络 位 。 

。 接口 ID: 相当 于 IPv4 中 的 主机 位 。 

IPv6 的 地 址 构成 如 图 1-11 所 示 。 


| n bits | 128-n bits | 


子 网 前 缀 (‘subnet prefix) 接口 ID (interface ID) 


图 1-11 IPv6 的 地 址 构成 
IPv6 中 较 常 用 的 网 络 大 小 是 64 位 前 组 长 度 的 网 络 。 
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1.6.2.3 EUI-64 

接口 ID 可 以 由 EUI-64 方式 获得 , 配合 无 状态 自动 配置 一 起 自动 生成 IPv6 地 址 , 或 
者 接口 启用 IPv6 后 自动 生成 link-local 地 址 时 ，EUI-64 自动 生成 方法 如 下 。 

48 位 MAC 地 址 的 前 24 位 为 公司 标识 ， 后 24 位 为 扩展 标识 符 。 高 7 位 是 0 表示 了 
MAC 地 址 本 地 唯一 。 第 一 步 将 FFFE 插入 MAC 地 址 的 公司 标识 和 扩展 标识 符 之 间 ， 第 
二 步 将 高 7 位 的 0 改 为 1， 表 示 此 接口 标识 全 球 唯一 。 

例 : MAC 地 址 为 F8-A9-63-1E-A1-07 

先 拆 分 为 2 部 分 F8A963 ”1EA107, 中 间 加 上 FFFE 变 成 F8A963 FFFE 1EA107。 

第 7 位 由 0 反 转 为 1: FAA963 FFFE 1EA107。 

EUI-64 计算 得 出 的 接口 ID: FAA9:63FF:FE1E:A107。 

1.6.2.4 单 播 Unicast 

唯一 标识 一 个 接口 ， 类 似 于 IPv4 的 单 播 地 址 。 发 送 到 单 播 地 址 的 数据 包 将 被 传输 到 此 
地 址 所 标识 的 唯一 接口 ， 一 个 单 播 地 址 只 能 标识 一 个 接口 ， 但 一 个 接口 可 以 有 多 个 单 播 地 址 。 

单 播 地 址 可 细 分 为 以 下 几 类 。 

链 路 本 地 地 址 (Link-local ) 

链 路 本 地 地 址 的 引入 是 了 Pv6 地 址 的 一 个 非常 方便 的 地 方 , 它 可 以 在 节点 未 配置 全 球 
单 播 地 址 的 前 提 下 ， 仍 然 互 相通 信 。 

链 路 本 地 地 址 只 在 同一 链 路 上 的 节点 之 间 有 效 , 在 IPv6 启动 后 就 自动 生成 , 使 用 了 
特定 的 前 级 FE80::/10， 接 口 ID 使 用 EUI-64 自动 生成 ， 也 可 以 使 用 手动 配置 。 链 路 本 地 
地 址 用 作 实 现 无 状态 自动 配置 、 邻 居 发 现 等 应 用 。 同 时 ，OSPFv3、RIPng 等 协议 都 工作 
在 该 地 址 上 。eBGP 邻居 也 可 以 使 用 该 地 址 来 建立 邻居 关系 。 路 由 表 中 路 由 的 下 一 跳 或 
主机 的 默认 网 关 都 是 链 路 本 地 地 址 。 

唯一 本 地 地 址 

唯一 本 地 地 址 是 IPv6 网 络 中 可 以 自己 随意 使 用 的 私有 网 络 地 址 ( 见 表 1-3), 用 来 取 
代 已 作废 的 RFC3879 定义 的 站 点 本 地 地 址 (Site-local 地 址 )， 使 用 特定 的 前 缀 FD00/8。 


表 1-3 IPv6 唯一 本 地 地 址 的 格式 
Prefix Global ID | SubnetID | Interface ID 


固定 前 缀 : 8bit，FD00/8。 

Global ID: 40bit， 全 球 唯一 前 级 ; 通过 伪 随 机 方式 产生 。 

Subnet ID: 16bit， 工 程 师 根 据 网 络 规 划 自 定义 的 子 网 ID。 

Interface ID: 64bit， 相 当 于 IPv4 中 的 主机 位 。 

唯一 本 地 地 址 的 设计 使 私有 网 络 地 址 具备 唯一 性 ， 既 使 任 两 个 使 用 私有 地 址 的 Site 
互联 也 不 用 担心 地 址 会 冲突 。 

全 球 单 播 地 址 

全 球 单 播 地 址 相当 于 IPv4 中 的 公 网 地 址 ， 目 前 已 经 分 配 出 去 的 前 3 位 固定 是 001， 
所 以 已 分 配 的 地 址 范围 是 2000::/3〔( 见 表 1-4)。 


表 1-4 全 球 单 播 地 址 的 格式 


ol | TA | RES | NA | SIA | InterfaceID 
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001: 3bit， 目 前 已 分 配 的 固定 前 级 为 001。 

TLA (Top Level Aggregation) 顶级 聚合 : 13bit，IPv6 的 管理 机 构 根 据 TLA 分 配 不 
同 的 地 址 给 某 些 骨 和 干 网 的 ISP， 最 大 可 以 得 到 8192 个 顶级 路 由 。 

RES: 8bit， 保 留 使 用 ， 为 未 来 扩充 TLA 或 者 NLA 预 留 。 

NLA (Next Level Aggregation ) 次 级 聚合 : 24bit， 骨 干 网 ISP 根据 NLA 为 各 个 中 小 
ISP 分 配 不 同 的 地 址 段 ， 中 小 ISP 也 可 以 针对 NLA 进一步 分 割 不 同 地 址 段 ， 分 配给 不 同 
用 户 。 

SLA (Site Level Aggregation) 站 点 级 聚合 : 16bit， 公 司 或 企业 内 部 根据 SLA 把 同 
一 大 块 地 址 分 成 不 同 的 网 段 ， 分 配给 各 站 点 使 用 ， 一 般 用 作 公司 内 部 网 络 规划 ， 最 大 可 
以 有 65536 个 子 网 。 

嵌入 IPv4 地 址 的 IPv6 地 址 

1. 兼容 IPv4 的 IPv6 地 址 

这 种 IPv6 地 址 的 低 32 位 携带 一 个 IPv4 的 单 播 地 址 , 一般 主 要 使 用 于 IPv4 兼容 IPv6 
自动 隧道 ， 但 由 于 每 个 主机 都 需要 一 个 单 播 IPv4 地 址 ， 扩 展 性 差 ， 基 本 已 经 被 6to4 隧 
道 取代 。 如 图 1-12 所 示 。 


80 bits "6 | 32 bits | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
ee 0000|0000| IPv4 address | 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


图 1-12 兼容 IPv4 的 IPv6 地 址 格式 











2. 映射 IPv4 的 IPv6 地 址 
这 种 地 址 的 最 前 80bit 全 为 0， 后 面 16bit 全 为 1， 最 后 32bit 是 IPv4 地 址 。 这 种 地 
址 是 把 IPv4 地 址 用 IPv6 表示 。 如 图 1-13 所 示 。 


| 80 bits | 16 | 32 bits 





[和 0000 |FFFF| IPv4 address 
+ -一 一 一 一 一 一 一 一 一 十 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


图 1-13 ”映射 IPv4 的 IPv6 地 址 格式 





3. 6to4 地 址 

6to4 地 址 用 在 6to4 隧道 中 ， 它 使 用 IANA 指定 的 2002::/16 为 前 级 ， 其 后 是 32 位 的 
IPv4 地 址 ，6to4 地 址 中 后 80 位 由 用 户 自 己 定 义 ， 可 对 其 中 前 16 位 划分 ， 定 义 多 个 IPv6 
子 网 。 不 同 的 6to4 网 络 使 用 不 同 的 48 位 前 缀 ， 彼 此 之 间 使 用 其 中 内 嵌 的 32 位 IPv4 地 
址 的 自动 隧道 来 连接 。IPv6 单 播 地 址 分 类 见 表 1-5。 


表 1-5 IPv6 单 播 地 址 分 类 
地址 类 型 高 位 二 进 制 十 六 进 制 
链 路 本 地 地 址 FE80::/10 


站 点 本 地 地 址 (已 废除 ) | 1lllllllol | FEC0::/10 


唯一 本 地 地 址 11111101 FD00::/8 
全 球 单 播 地 址 (已 分 配 ) 001 2..../4 或 者 3..../4 


全 球 单 播 地 址 (未 分 配 ) 其 余 所 有 地 址 
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1.6.2.5 ” 任 播 Anycast 
任 播 的 概念 最 初 是 在 RFC1546 (Host Anycasting Service) 中 提出 并 定义 的 ， 主 要 为 

DNS 和 HTTP 提供 服务 。IPv6 中 没有 为 任 播 规 定单 独 的 地 址 空间 , 任 播 地 址 和 单 播 地 址 

使 用 相同 的 地 址 空间 。IPv6 任 播 地 址 可 以 同时 被 分 配给 多 个 设备 ， 也 就 是 说 多 台 设 备 可 

以 有 相同 的 任 播 地 址 ， 以 任 播 地 址 为 目标 的 数据 包 会 通过 路 由 器 的 路 由 表 被 路 由 到 离 源 

设备 最 近 的 拥有 该 目标 地 址 的 设备 。 
如 图 1-14 所 示 ， 服 务 器 A、B 和 C 的 接口 配置 的 是 同一 个 任 播 地 址 ， 根 据 路 径 的 开 

销 ， 用 户 访问 该 任 播 地 址 选择 的 是 开销 为 3 的 路 径 。 





Server with Anycast IP 


图 1-14 任 播 组 网 示例 


如 图 1-14 所 示 ， 任 播 技 术 的 优势 在 于 源 节 点 不 需要 了 解 为 其 提供 服务 的 具体 节点 ， 而 
可 以 接收 特定 服务 , 当 一 个 节点 无 法 工作 时 , 带 有 任 播 地 址 的 数据 包 又 被 发 往 其 他 两 个 主机 
节点 ， 从 任 播 成 员 中 选择 合适 的 目的 地 节点 取决 于 路 由 协议 重新 收敛 后 的 路 由 表情 况 。 

任 播 可 以 分 为 基于 网 络 层 的 任 播 和 基于 应 用 层 的 任 播 。 两 者 主要 的 区 别 是 网 络 层 的 
任 播 仅仅 依靠 网 络 本 身 《〈 比 如 路 由 表 ) 来 选择 目标 服务 器 节点 ， 而 应 用 层 任 播 是 基于 一 
定 的 探测 手段 和 算法 来 选择 性 能 最 好 的 目标 服务 器 节点 。RFC2491 和 RFC2526 定义 了 
一 些 保留 的 任 播 地 址 格式 , 如 子 网 路 由 器 任 播 地 址 , 用 来 满足 不 同 的 任 播 应 用 访问 需求 。 
由 于 IPv6 任 播 目前 还 处 于 试用 阶段 ， 其 详细 内 容 可 以 参阅 相关 的 RFC 和 书籍 。 

1.6.2.6 组 播 Multicast 

在 IPv6 中 不 存在 广播 报 文 ， 部 分 广播 的 应 用 使 用 组 播 来 实现 , 广播 本 身 就 是 组 播 的 
一 种 应 用 。 

组 播 地 址 构成 

组 播 地 址 标识 一 组 接口 ， 目 的 地 址 是 组 播 地 址 的 数据 包 会 被 属于 该 组 的 所 有 接口 所 
接收 。 组 播 地址 构成 见 表 1-6。 


表 1-6 IPv6 组 播 地 址 构成 
FF Group id 


SS | 第 - 章 路 由 基础 | __ 
e FF: 8bit，IPv6 组 播 地 址 前 8 位 都 是 FF/8， 以 FF::/8 开头 。 
e Lefttime: 4bit， 第 1 位 都 是 0， 格 式 |0lrlpltl。 
r 位 : 取 0 表示 非 内 典 RP， 取 1 表示 内 骨 RP。 
p 位 : 取 0 表示 非 基 于 单 播 前 级 的 组 播 地 址 ， 取 1 表示 基于 单 播 前 纵 的 组 
播 地 址 ，p 位 取 1， 则 t 位 必须 为 1。 
t 位 : 取 0 表示 永久 分 配 组 播 地 址 ， 取 1 表示 临时 分 配 组 播 地 址 。 
e ”Scope: 4bit， 标 识 传播 范围 。 
0001 node〈 节 点 ) 
0010 link( 链 路 ) 
0101 Site (站 点 ) 
1000 organization (组 织 ) 
1110 global (全 球 ) 
e Group id: 112bit， 组 播 组 标识 号 。 
IPv6 固定 的 组 播 地 址 
所 有 节点 的 组 播 地 址 :，FF02::1 (相当 于 IPv4 中 的 广播 ) 
所 有 路 由 器 的 组 播 地 址 : FF02::2 (相当 于 224.0.0.2) 
所 有 OSPFV3 路 由 器 地 址 :FF02::5 (相当 于 224.0.0.5) 
所 有 OSPFV3 DR 和 BDR: FF02::6 (相当 于 224.0.0.6) 
所 有 RIP 路 由 器 : FF02::9 (相当 于 224.0.0.9) 
所 有 PIM 路 由 器 : FF02::D (相当 于 224.0.0.13) 
被 请 求 节 点 组 播 地 址 : 由 固定 前 绥 FF02::1:FF00:0/104 和 单 播 地 址 的 最 后 24 位 组 成 。 
特殊 地 址 
0:0:0:0:0:0:0:0 (简化 为 ::) 未 指定 地 址 : 它 不 能 分 配给 任何 节点 ， 表 示 当 前 状态 下 
没有 地 址 ， 如 当 设 备 刚 接 入 网 络 后 ， 本 身 没有 地 址 ， 则 发 送 数据 包 的 源 地 址 使 用 该 地 址 ， 
比如 发 送 RA 消息 ，DAD (重复 地 址 检测 )。 该 地 址 不 能 用 作 目 的 地 址 。 
0:0:0:0:0:0:0:1 (简化 为 ::1) 环 回 地 址 : 节点 用 它 作为 发 送 后 返回 给 自己 的 IPv6 报 文 ， 
不 能 分 配给 任何 物理 接口 ， 它 被 看 作 属 于 链 路 本 地 范围 ， 可 以 被 当 作 虚拟 接口 的 链 路 本 
地 单 播 地 址 ， 这 个 虚拟 接口 通 向 一 个 假象 的 链 路 ， 该 链 路 不 和 任何 人 连接 。 如 果 一 个 应 
用 程序 将 数据 包 送 到 此 地 址 ，IPv6 协议 栈 会 转送 这 些 数 据 包 绕 回 到 上 自己 (相当 于 IPv4 
中 的 127.0.0.1)。 环 回 接口 不 能 被 用 作 报 文 的 源 耻 ， 以 环 回 接口 为 目的 的 报 文 不 能 转发 
出 单一 节点 ， 不 能 被 路 由 器 转发 ， 接 口 收 到 目的 地 址 为 环 回 接口 的 报 文 必 须 将 其 丢弃 。 


1.6.3 ”IPv6 的 报 文 格式 


由 于 IPv4 中 的 包头 功能 字段 过 多 , 路 由 器 查找 选 路 的 时 候 需 要 读 取 每 一 个 字段 , 但 
往往 很 多 字段 都 是 空 的 ,这样 会 导致 转发 效率 低下 。 所 以 在 IPv6 中 把 报 文 的 报头 分 为 基 
本 头 和 扩展 头 2 部 分 , 基本 头 中 只 包含 基本 的 必要 属性 比如 源 目 人 P 等 , 扩展 功能 用 扩展 
头 添 加 在 基本 头 的 后 面 。 

1.6.3.1 IPv6 基本 报头 

不 同 于 IPv4 报头 的 可 变 长 20~60Byte，IPvV6 基本 头 是 定 长 40 Byte， 其 中 包含 8 个 
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字段 ， 相 比 IPv4 报头 ， 减 掉 了 6 个 字段 ， 新 增加 1 个 字段 。 如 图 1-15 所 示 。 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 





| Version | Traffic Class | Flow Label | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 二 一 十 一 十 
| Payload Length Next Header Hop Limit | 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


| 
十 
| 
浇 Source Address 


站 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 





十 


十 Destination Address 


十 





| 
十 
十 
| 
十 
| 
一 十 
和 
| 
十 
十 
十 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 


图 1-15 ”IPv6 基本 头 结构 


Version: 4bit， 指 定 IPv6， 数 值 =6。 

Traffic Class: 8bit， 流 量 类 别 字段 的 功能 跟 IPv4 中 的 TOS 字段 类 似 ， 用 来 区 分 不 同类 
型 或 优先 级 的 IPv6 数据 包 ， 该 字段 根据 RFC2647 中 定义 的 差分 服务 技术 ， 使 用 了 6 bit 作为 
DSCP， 可 以 表示 的 DSCP 值 的 范围 为 0~63。 关 于 DSCP 的 更 多 内 容 可 参阅 本 书 QoS 章节 。 

Flow Label: 20bit， 用 作 标 识 同一 个 数据 流 ， 此 字段 为 IPv6 新 增 字 段 。 由 于 可 以 标 
记 一 个 流 中 的 所 有 数据 包 ， 所 以 路 由 器 可 以 利用 该 字段 来 辨别 一 个 流 ， 而 不 用 处 理 流 中 
每 个 数据 包头 ， 提 高 了 处 理 效率 。 目 前 该 字段 的 使 用 还 在 试用 阶段 。 

Payload Length: 16bit， 数 据 包 的 有 效 载荷 ， 指 报头 后 的 数据 内 容 长 度 , 单位 是 Byte， 
最 大 数值 为 65535， 指 IPv6 基本 头 后 面 的 长 度 ， 包 含 扩展 头 部 分 。 该 字段 和 IPv4 报 文 
头 部 中 的 总 长 度 字 段 不 同 点 在 于 ,IJPv4 报 头 中 总 长 度 字段 是 指 报头 和 数据 两 部 分 的 长 度 ， 
而 IPv6 的 有 效 载 荷 字段 只 是 指数 据 部 分 的 长 度 ， 不 包括 IPv6 基本 报头 。 

Next Header: 8bit， 指 明 跟 在 基本 头 后 面 是 哪 种 扩展 头 或 者 上 层 协 议 中 的 协议 类 型 。 
如 果 只 有 基本 报头 而 无 扩展 报头 ,那么 该 字段 的 值 指示 的 是 数据 部 分 所 承载 的 协议 类 型 ， 
这 一 点 类 似 于 IPv4 报头 中 的 协议 字段 ， 而 且 与 IPv4 的 协议 字段 使 用 相同 的 协议 值 ， 比 
如 UDP 为 6，TCP 为 17。 表 1-7 列 出 了 常用 的 上 层 协议 及 对 应 的 Next Header 值 。 


表 1-7 Next header 应 
| 。 对 应 的 扩展 头 或 高 层 协议 类 型 
0 逐 跳 选 项 扩展 头 
6 TCP 
站 这 UDP 
43 路 由 选择 扩展 头 
44 分 段 扩展 头 


Ei 30 


| 第 一 章 IP 路 由 基础 | 







50 ESP 扩展 头 
51 AH 扩展 头 
58 ICMPv6 

60 目的 选项 扩展 头 
89 OSPFv3 


Hop Limit: 8bit, 功能 类 似 于 IPv4 中 的 TTL 字段 , 最 大 值 为 255, 报 文 每 经 过 一 跳 ， 
该 字段 值 会 减 1， 减 到 .0 后 数据 包 被 丢弃 。 对 于 IPv6 来 说 ， 此 时 会 发 送 一 条 ICMPv6 超 
时 消息 ， 以 通知 数据 包 的 源 端 数据 已 经 被 丢弃 。 

Source Address: 128bit， 数 据 包 的 源 IPv6 地 址 ， 必 须 是 单 播 地 址 。 

Destination Address: 128bit， 数 据 包 的 目标 IPv6 地 址 ， 可 以 是 单 播 或 组 播 地 址 。 

图 1-16 显示 了 一 份 通过 WireShark 抓 取 的 IPv6 报 文 。 





.. “= This field makes the filtrer “ip.version «=» 6" possible: 6] 


.0000 007T TT Differentiated Services Field: Default (0x00000000) 
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5 - 
Server IPv4: 0.0.0.0 (0.0.0.0)] 
[source Teredo Port: 65535] 

[Source Teredo Client Ipv4: 255.255.255.253 (255.255.255.253)] 
Destination: 2001;; :1) 8 

Server IPv4: 0.0.0.0 (0.0.0.0)] 

[Destination Teredo Port: 65535] 

[Destination Teredo Client ITIPv4: 255.255.255.254 (255.255.255.254)] 


图 1-16 IPV6 报 文 示 例 


1.6.3.2 与 IPv4 报头 的 比较 
IPv4 报头 中 包含 13 个 字段 , 如 图 1-17 所 示 , 其 中 红 框 部 分 为 Pv6 报头 中 被 去 除 的 


选项 


字段 














由 于 IPv6 采用 头 部 定 长 40Byte 设计 ， 
所 以 去 除了 IHL〈 头 部 长 度 ) 字段 。 分 段 
功能 由 IPv6 分 段 扩 展 头 实现 ， 所 以 去 除了 
标识 FLAGS， 分 段 偏 移 这 3 个 字段 。 去 除 


目的 地 地 址 
| 
填充 
链 路 层 大 部 分 都 已 经 对 数据 进行 了 校 验 ， 


保证 了 三 层 不 需要 再 对 数据 包 进行 校 验 ， 和 
二 是 由 于 四 层 协议 也 有 类 似 的 校 验 功能 ， 三 是 由 于 TTL 值 每 跳 都 在 改变 , 路 由 器 要 频繁 
进行 校 验 和 的 重新 计算 ， 影 响 了 数据 包 的 转发 效率 。 

1.6.3.3 1Pv6 扩展 头 结构 

IPv6 扩展 头 是 可 选 报头 ， 跟 在 IPv6 基本 头 后 ， 其 作用 是 取代 IPv4 报头 中 的 选项 字 
段 ， 这 样 可 以 使 得 IPv6 的 基本 头 采用 定 长 设计 (40Byte)， 并 把 IPv4 中 的 部 分 字段 如 分 
段 字段 独立 出 来 , 设计 为 IPv6 分 段 扩 展 头 , 这 样 做 的 好 处 是 大 大 提高 了 中 间 节 点 对 IPv6 
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数据 包 的 转发 效率 。 每 个 IPv6 数据 包 都 可 以 有 0 个 或 者 多 个 扩展 头 ， 每 个 扩展 头 长 度 都 
是 8Byte 的 整数 倍 。IPv6 基本 头 和 扩展 头 的 Next header 字段 表明 了 紧 跟 在 本 报头 后 面 的 
是 什么 内 容 ， 可 能 是 另 一 个 扩展 头 或 者 是 高 层 协议 。 
IPv6 的 扩展 头 被 当 作 IPv6 静 载 荷 的 一 部 分 ， 计 算 在 IPv6 基本 头 的 Palyload Length 
字段 内 。 
IPv6 的 报 文 结构 举例 如 图 1-18 所 示 。 


无 扩展 头 的 IPv6 报 文 : 


IPv6 基本 头 
(Next header=6) TCP 头 DATA 


只 有 一 个 扩展 头 的 IPv6 报 文 : 


IPv6 基本 头 分 片 扩展 头 | 
(Next header=44) | (Nextheader=6) TCP 头 DATA 


有 多 个 扩展 头 的 IPv6 报 文 : 
IPv6 基本 头 路 由 选择 扩展 头 | 认证 报头 扩展 头 


| IPv6 静 载 荷 | 





图 1-18 ”IPv6 报 文 结构 举例 


目前 ，RFC 2460 中 定义 了 6 个 了 Pv6 扩展 头 : 逐 跳 选项 报头 、 目 的 选项 报头 、 路 由 
报头 、 分 段 报头 、 认 证 报头 、 封 装 安全 净 载 报头 。 
逐 跳 选 项 扩展 头 和 目的 选项 扩展 头 的 数据 部 分 都 采用 类 型 -长 度 - 值 CTLV) 的 选项 
设计 。 如 图 1-19 所 示 。 
寺 一 十 一 十 一 主 一 十 一 十 一 二 一 直 宛 十 一 二 一 十 一 十 一 了 一 十 一 十 一 十 + 一 一 一 一 一 一 一 一 一 


| Option Type | Opt Data Len | Option Data 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 二 一 十 一 十 一 十 一 二 一 一 一 一 一 一 一 一 一 


图 1-19 选项 格式 


Option Type: 8bit， 标 识 类 型 ， 最 高 2 位 表示 当 设 备 部 识别 此 扩展 头 时 的 处 理 方法 。 

。 00: 跳 过 这 个 选项 。 

。 01: 丢弃 数据 包 ， 不 通知 发 送 方 。 

。 10: 丢弃 数据 包 ， 不 论 目的 地 址 是 否 为 组 播 ， 向 发 送 方 发 1 个 ICMPv6 的 错误 
信息 报 文 。 

。 11: 丢弃 数据 包 ， 当 目的 地 址 不 是 组 播 时 ， 向 发 送 方 发 1 个 ICMPv6 的 错误 信 
息 报 文 。 

第 3 位 表示 在 选 路 过 程 中 ，Data 部 分 是 否 可 以 被 改变 。 

e。 0: 表示 Option 不 能 被 改变 。 

e。 1: 表示 Option 可 以 被 改变 。 

值得 注意 的 是 : 如 果 存 在 认证 扩展 头 , 在 计算 数据 包 的 校 验 值 时 ， 可 变化 Data 部 分 

需要 被 当成 8bit 的 全 0 处 理 。 
Opt Data Len: 8bit， 标 识 Option Data 部 分 的 长 度 ， 最 大 为 255， 单 位 是 Byte, 不 包 
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含 Option Type 和 Opt Data Len 部 分 的 长 度 。 
Option Data: 长 度 可 变 ， 最 大 为 255Byte， 包 含 选项 的 具体 数据 内 容 。 
1.6.3.4 IPv6 已 定义 的 扩展 头 
逐 跳 选项 扩展 头 
Next Header 值 =0 
作用 : 用 于 携带 在 报 文 发 送 路 径 上 必须 被 每 一 跳 路 由 器 检查 和 处 理 的 可 选 信息 ， 类 
似 IPv4 中 的 ROUTER ALERT 选项 。 到 目前 为 止 ,只 定义 了 一 个 逐 跳 选 项 一 一 巨型 净 荷 
选项 。 通 过 这 个 选项 ， 人 允许 IPv6 报 文 的 有 效 净 荷 超过 65535Byte。 
逐 跳 选项 扩展 头 格式 如 图 1-20 所 示 。 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Next Header | Hdr Ext Len | 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 + 





Options 。 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


图 1-20 逐 跳 选项 扩展 头 格式 


Next Header: 8bit， 作 用 同 基 本 头 的 Next Header 相同 。 

Hdr Ext Len: 8bit， 标 识 Options 头 的 长 度 。 该 长 度 以 8Byte 为 单位 ， 不 包含 扩展 头 
的 第 一 个 8Byte， 即 如 果 该 扩展 头 只 有 8Byte 长 ， 该 字段 值 即 为 0。 

Options: 可 以 携带 不 定数 量 采 用 TLV 格式 的 选项 ， 目 前 唯一 定义 的 选项 是 巨型 静 
载荷 选项 。 使 用 巨型 静 载荷 选项 ， 要 求 IPv6 头 的 16 位 净 荷 长 度 字 段 值 必须 为 0， 扩 展 
头 中 的 巨型 净 荷 长 度 字 段 值 不 小 于 65535。 此 外 还 有 一 个 限制 : 如 果 包 中 有 分 段 扩展 头 ， 
就 不 能 同时 使 用 巨型 净 荷 选项 ， 因 为 使 用 巨型 净 荷 选项 时 不 能 对 包 进 行 分 段 。 

巨型 静 载 荷 选项 的 选项 类 型 为 194, 如 图 1-21 所 示 , 由 于 整个 选项 扩展 头 只 有 8Byte， 
所 以 扩展 头 长 度 为 0， 选项 数据 长 度 为 4， 表示 巨型 静 载荷 长 度 是 32bit， 所 以 使 用 巨型 静 
载荷 选项 ，IPv6 数据 包 的 静 载 荷 最 大 可 以 达到 2”-1Byte。IPv6 基本 头 不 包括 在 内 。 

十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 
| 下 一 个 头 | 。 扩展 头 长 度 =0 | 选项 类 型 =194 | 选项 数据 长 度 =4 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 


| 巨型 静 荷 长 度 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 


图 1-21 巨型 静 载荷 选项 格式 


| 100000 字 节 | 





二 一 十 一 十 





IPv6 基 本 头 。 | 、 | 扩展 头 长 度 | 选项 类 型 | 选项 数据 长 度 | 巨型 静 载 荷 长 度 | 其余 扩展 头 和 

下 一 头 ”| 下 一 头 | 扩展 头 项 类 考 载 区 长 度 | 上 层 协议 头 加 
有 效 载荷 长 度 -0 = 上 层 协议 数据 
了 as | at 类 型 为 0 的 超大 数据 包 选 项 ee 


逐 跳 扩展 头 


图 1-22 更 载 荷 =100000Byte 的 IPv6 数据 包 
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es 
路 由 选择 扩展 头 
Next Header 值 =43 
作用 : 包含 ITPv6 数据 包 到 达 目 的 地 所 要 经 过 的 中 间 节 点 , 使 源 端 可 以 强制 数据 包 经 
过 哪些 节点 ， 类 似 IPv4 中 的 宽松 源 站 选 路 。 
路 由 选择 扩展 头 格式 如 图 1-23 所 示 。 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Next Header | Hdr Ext Len | Routing Type | Segments Left | 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 





s type-specific data : 
才 一 十 一 十 一 卡 一 盯 一 赴 一 填 一 二 一 寺 一 十 一 十 一 十 一 十 一 十 一 圭一 目 一 十 一 十 一 十 一 十 一 让 一 十 一 寺 一 二 一 站 一 十 一 十 一 十 一 二 一 于 一 机 一 直 一 才 


1-23 ”路 由 选择 扩展 头 格式 


Next Header: 8bit， 作 用 同 基 本 头 的 Next Header。 
Hdr Ext Len: 8bit， 标 识 Options 头 的 长 度 。 该 长 度 以 8Byte 为 单位 ， 不 包含 扩展 头 
的 第 一 个 8Byte， 即 如 果 该 扩展 头 只 有 8Byte 长 ， 该 字段 值 即 为 0。 
Routing Type: 8bit， 目 前 只 定义 了 类 型 0， 表 示 数 据 包 需 要 经 过 的 中 间 路 由 器 的 地 
址 。 如 图 1-24 所 示 。 
二 一 条 
Next Header | Hdr Ext Len | Routing Type=0 | Segments Left | 
= 由 三 当 = 中 二 四 = 由 一 市 二 于 二 二 三 沾 三 贞 守 二 丰 = 诗 = 条 三 冲 王 中 三 中 三 汕 一 六 而 水 让 二 囊 一 共 二 于 王 定局 于 二 华 三 半 一 征 三 弟 二 此 二 间 
Reserved 
三 = 年 = 站 三村 = 中 = 不 一 丰 = 站 一直 = 中 二 = 这 = 生 = 征 二 让 二 于 一 于 三 料 == 小 下 一 时 二 遇 二 砷 二 妆 生 二 三 中 == 千 三 盾 归 = 








Address[1] 
一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 


十 
| 
十 
| 
本 
| 
十 
| 
十 
| 
十 
| 
十 
| 
十 
| 
十 Address[2] 
十 

| 

十 





二 一 十 一直 一 十 一 十 一 十 一 十 一 十 一 十 一 


一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


1-24 类 型 为 0 的 路 由 选择 扩展 头 格式 


Segments Left: 8bit， 表 示 数 据 包 到 达 目 的 地 址 所 需要 经 过 的 中 间 节 点 的 数量 ， 最 大 
为 255。 
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DP PAIR SPEIRS EE ROA RW HL | 第 - 章 中路 由 基础 | 
type-specific data: 内 容 由 Routing Type 决定 。 
Reserverd 保留 部 分 为 32bit，Address[1]、Address[2] 等 表示 数据 包 需 要 经 过 的 中 间 
因为 Hdr Ext Len 字段 的 单位 是 8Byte (64bit)， 所 以 Hdr Ext Len 字段 部 分 的 数值 等 
于 需要 经 过 的 节点 数 X2。 

使 用 路 由 选择 扩展 头 时 ， 初 始 状态 源 端 主机 发 出 的 数据 包 目 的 地 址 并 非 是 实际 的 最 
终 目的 地 址 ， 而 是 需要 经 过 的 第 一 个 中 间 节 点 ， 其 Segments Left 等 于 需要 经 过 的 节点 数 
量 ， 中 间 的 其 他 路 由 器 忽略 路 由 选择 扩展 头 ， 然 后 数据 包 到 达 第 一 个 指定 经 过 路 由 器 才 
处 理 此 路 由 选择 扩展 头 。 数 据 包 的 目的 地 址 替换 为 指定 经 过 的 第 二 个 中 间 节 点 , Segments 
Left 字段 值 减 1， 以 此 类 推 ， 数 据 包 到 达 最 终 目的 地 址 。Segments Left 字段 为 0 表示 此 
路 由 器 节点 就 是 最 终 目的 地 址 。 

如 图 1-25 所 示 ，IP1 和 IP2 是 数据 包 转 发 过 程 中 要 求 经 过 的 节点 ， 则 源 主机 发 送 的 
数据 包 源 卫 是 S， 目 的 IP 是 第 一 个 节点 了 了 1， 在 路 由 选择 关中 有 2 个 IP 地 址 ， 分 别 是 
需要 经 过 的 第 二 个 节点 IP2 和 最 终 目的 地 址 D。 数 据 包 达 到 了 P1 后 ， 数 据 包 的 目的 地 址 
被 替换 为 IP2， 同 时 Segment left 字段 减 1。 依 次 类 推 ， 数 据 包 到 达 IP2 时 也 重复 上 述 操 
作 ， 一 直到 数据 包 到 达 最 终 目的 地 址 D。 


IP=S IP=D 
IP1 IP2 
Or destination 

源 地 址 =S 源 地 址 =S 源 地 址 =S 

目的 地 址 《IP 目的 地 址 P2) 目的 地 址 4D) 

Hdr Ext Len=4 Hdr en=4 Hdr ExtTen=4 

Segments left=2 egments left=1 gments left=0 

Address[1]=IP2 Address[1]=IP2 Address[1]=IP2 

Address[2]=D Address[2]=D Address[2]=D 


1-25 ”使 用 路 由 选择 扩展 头 的 数据 包 转 发 过 程 





分 段 扩 展 头 
Next Header 值 =44 
作用 : 如 果 源 端 需要 发 送 的 数据 包 超 过 Path MTU 的 大 小 ， 源 端 在 发 送 前 需要 将 数 
据 包 先 分 段 。 在 IPv4 中 ， 数 据 包 超过 接口 MTU 值 ， 中 间 节 点 路 由 器 将 对 数据 包 进 行 分 
段 处 理 ; 而 在 IPv6 中 ， 中 间 路 由 器 不 能 对 数据 包 分 段 ， 如 果 中 间 路 由 器 需要 发 送 的 报 文 
超过 本 接口 的 MTU 值 ， 数 据 包 将 被 丢弃 ， 同 时 路 由 器 会 发 送 一 个 ICMPv6 的 错误 信息 
报 文 给 源 端 。IPv6 分 段 扩展 头 如 图 1-26 所 示 。 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Next Header | Reserved | Fragment offset | Res |M | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 二 二 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


| Identification | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 二 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


图 1-26 IPv6 分 段 扩展 头 











Next Header: 8bit， 作 用 同 基 本 头 的 Next Header。 
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.__ HCIE 95 指南 | 

Reserved: 8bit， 保 留 目 前 未 用 为 0。 

Fragment Offset: 13bit， 等 同 于 IPv4 中 的 分 段 偏 移 字段 ， 以 8Byte 为 单位 。 如 该 值 
为 150， 表 示 该 报 文 的 数据 是 位 于 原 报 文 的 1200Byte 处 后 。 

Res: 2bit， 保 留 目前 未 用 为 0。 

M: 1bit， 表 示 后 续 是 否 还 有 分 段 ， 如 为 1 表示 后 续 还 有 分 段 报 文 ， 为 0 表示 该 报 文 
是 最 后 一 个 分 段 报 文 。 

Identification: 32bit， 该 字段 等 同 于 IPv4 的 标识 字段 ， 为 32 位 。 源 节点 为 每 个 被 分 
段 的 IPv6 包 都 分 配 一 个 标识 符 ， 用 来 唯一 标识 同一 组 分 段 的 报 文 , 便于 接收 端 根 据 相同 
标识 重组 报 文 。 

由 于 分 段 扩 展 头 采用 定 长 8Byte 的 设计 , 所 以 扩展 头 长 度 这 一 字段 无 任何 意思 ,8bit 
保留 为 0。 

在 IPv4 中 ， 中 间 路 由 器 对 于 超过 接口 MTU 的 数据 包 可 以 进行 分 段 处 理 ， 这 样 操作 
会 降低 数据 包 的 转发 效率 ,而 且 数 据 包 在 转发 过 程 中 可 能 被 多 次 分 段 。 而 在 IPv6 中 ,只 
有 源 端 数据 包 发 送 方才 能 对 数据 包 进 行 分 段 处 理 ， 如 果 中 间 路 由 器 转发 的 数据 包 大 于 
MTU 将 被 丢弃 掉 ， 并 向 源 端 发 送 一 个 ICMPv6 的 错误 信息 报 文 。 

如 图 1-27 所 示 , 假设 源 端 要 发 送 2000Byte 的 他 报 文 数据 , 分 段 标识 为 1111, MTU 
值 为 1400Byte。 由 于 IPv6 基本 头 定 长 40Byte， 所 以 数据 包 的 有 效 静 载荷 长 度 为 1360， 
由 于 要 分 段 , 加 入 分 段 扩 展 头 8Byte， 所 以 有 效 静 载荷 的 数据 部 分 为 1352Byte, 2000Byte 
的 数据 被 分 为 2 段 , 第 一 段 的 有 效 静 载荷 长 度 是 1360, 有 效 静 载荷 数据 部 分 是 1352Byte; 
第 二 段 的 有 效 静 载荷 长 度 是 656， 有 效 静 载荷 数据 部 分 为 648Byte,， 这 两 段 的 分 段 标识 同 
为 1111。 









目的 地 址 D 


有 效 载荷 数据 2000 字 节 


天 EECEEEIECEEEICEEICSI 















有 效 载荷 数据 648 字 节 


is 


有 效 载荷 数据 1352 字 节 


第 一 段 分 片 第 二 有 段 分 片 
图 1-27 IPv6 分 段 扩展 头 的 使 用 方式 





ESP 扩展 头 (Encapsulating Security Payload) 
Next Header 值 =50 


Ri | 第 - 章 路 由 基础 | __ 
作用 : 提供 对 数据 包 的 完整 性 验证 和 加 密 ，ESP 将 需要 加 密 保护 的 字段 加 密 后 放 入 
ESP 头 的 数据 部 分 ，ESP 与 AH 联合 使 用 ， 用 来 提供 认证 和 加 密 。ESP 扩展 头 的 格式 如 
图 1-28 所 示 。 





一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


Authentication Data(variable) 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Security Parameters Index(SPI) | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Sequence Number | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
3 Payload Data*(variable) A 
+ 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Padding(0 ~ 255bytes) | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| | Pad Length Next Header | 
+ 

十 


一 上 + 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 士 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


图 1-28 ESP 扩展 头 的 格式 


SPI: 32bit， 与 目的 地 址 和 AH 协议 组 合 ， 唯 一 标识 本 数据 包 的 SA。 

Sequence Num: 32bit， 是 一 个 单调 递增 的 数 ， 可 用 作 防 重 放 攻 击 。 

Payload Data: 可 变 长 ， 加 密 数据 。 

Padding: 填充 ， 由 于 加 密 数 据 必 须 是 4Byte 的 整数 倍 ， 所 以 有 时 候 需 要 填充 ， 内 容 
依据 加 密 算法 ， 最 大 为 255Byte。 

Pad Length: 8bit， 标 识 Padding 部 分 长 度 ，0 表示 无 填充 。 

Next Header: 8bit， 作 用 同 基本 头 的 Next header。 

Authentication Data: 可 变 长 ， 身 份 验证 。 

认证 报头 扩展 头 “Authentication Header) 

Next Header 值 =51 

作用 : 为 报 文 提供 完整 性 验证 ， 在 传输 过 程 中 不 被 改变 的 字段 会 被 用 作 认 证 信息 的 
计算 , 在 传输 过 程 中 可 能 改变 的 字段 如 Hop limit 字段 , 作为 0 处 理 。 如 果 有 多 个 扩展 头 ， 
必须 置 于 由 中 间 节 点 路 由 器 处 理 的 扩展 头 之 后 ， 以 及 由 目的 地 址 处 理 的 扩展 头 之 前 。 认 
证 报头 扩展 头 的 格式 如 图 1-29 所 示 。 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 
| Next Header | Payload Len | RESERVED 

十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 
| Security Parameters Index(SPI) 

十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 
| Sequence Number Field 

十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 
| 


十 Integrity Check Value-ICV(variable) 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 


图 1-29 认证 报头 扩展 头 的 格式 





+ 一 一 一 + 一 + 一 + 一 十 
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THCIEaassssl| 
Next Header: 8bit， 作 用 同 基 本 头 的 Next Header。 
Payload Len: 8bit， 标 识 认 证 报头 的 总 长 度 ， 单 位 是 4Byte， 最 大 为 255。 
RESERVED: 16bit， 保 留 ， 填 充 为 0。 
SPI: 32bit， 与 目的 地 址 和 AH 协议 组 合 ， 唯 一 标识 本 数据 包 的 SA。 
Sequence Num: 32bit， 是 一 个 单调 递增 的 数 ， 可 用 作 防 重 放 攻 击 。 
Integrity Check Value: 可 变 长 ， 必 须 是 4 字 节 的 整数 倍 ， 其 内 容 用 作 完 整 性 检查 。 
目的 选项 扩展 头 
Next Header 值 =60 
作用 : 取代 了 IPv4 中 的 选项 字段 ， 携 带 了 只 能 由 目的 地 址 才能 处 理 的 信息 。 目 的 选 
项 扩展 头 的 格式 如 图 1-30 所 示 。 
二 == 二 一 二 一 二 二 十 一 十 二 十 一 十 一 十 一 二 一 二 一 十 一 十 一 二 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 二 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 填 一 十 


| Next Header | Hdr Ext Len 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 + 





Options 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


图 1-30 目的 选项 扩展 头 的 格式 


Next Header: 8bit， 作 用 同 基 本 头 的 Next Header。 

Hdr Ext Len: 8bit， 标 识 Options 头 的 长 度 。 该 长 度 以 8Byte 为 单位 ， 不 包含 扩展 头 
的 第 一 个 8Byte， 即 如 果 该 扩展 头 只 有 8Byte 长 ， 该 字段 值 即 为 0。 

Options: 包含 一 个 或 多 个 以 TLV 格式 编码 的 选项 。 

如 果 有 多 个 扩展 头 ， 必 须 按照 以 下 顺序 出 现 : 

。 IJIPv6 基本 报头 
逐 跳 选项 扩展 报头 
目的 选项 扩展 报头 
路 由 选择 扩展 报头 
分 段 扩展 报头 
认证 扩展 报头 
封装 安全 有 效 载 荷 扩展 报头 
目的 选项 扩展 报头 〈 指 那些 将 被 分 组 报 文 的 最 终 目的 地 处 理 的 选项 ) 
上 层 协议 数据 报 文 

除了 逐 跳 选项 扩展 头 之 外 ， 其 余 扩展 头 在 传输 路 径 中 不 被 路 由 器 查看 ， 这 种 机 制 保 
证 了 路 由 器 只 查看 和 选 路 相关 的 基本 头 字段 ， 保 证 了 转发 数据 的 高 效 。 每 个 扩展 头 的 大 
小 是 8Byte 的 整数 倍 。 除 了 目的 地 址 选项 扩展 头 最 多 出 现 两 次 一 次 在 路 由 选择 扩展 头 
前 ， 一 次 在 上 层 协议 头 部 前 ) 以外， 每 个 扩展 头 应 当 只 出 现 一 次 。 


1.6.4 ICMPv6 


ICMPv6 的 协议 类 型 号 是 58， 除 了 IPv4 中 的 作用 外 ， 还 添加 了 邻居 发 现 、 无 状态 自 
动 配置 、PMTU 等 作用 。 协 议 规定 ICMPv6 的 错误 报 文 的 最 高 位 必须 是 0， 信 息 报 文 的 
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最 高 位 必须 是 1。ICMPv6 的 报 文 格式 如 图 1-31 所 示 。 


0 1 2 3 

1 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Type Code | Checksum | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


| | 


4 Message Body 未 
| | 
图 1-31 ICMPv6 的 报 文 格式 


Type: 8bit， 表 明 消 息 的 类 型 0 一 127 是 错误 报 文 ， 128 一 255 是 消息 报 文 。 
Code: 8bit， 表 明 具 体 的 原因 。 

Checksum: 16bit， 校 验 和 。 

Message Body: 可 变 长 ， 数 据 部 分 。 

ICMPv6 部 分 消息 的 Type 和 Code 值 见 表 1-8。 


表 1-8 ICMPv6 部 分 消息 的 Type 和 Code 值 
pe ee rh 
| 0 “| 没有 去 往 目的 地 的 路 由 
| “1 “| 与 目的 地 的 通信 被 管理 员 禁 止 
超出 源 地 址 范围 
(目的 地 不 可 达 》 起 秆 攻克 过 
端口 不 可 达 
源 地 址 在 进出 策略 中 拒绝 
| 6 -| 拒绝 去 目的 地 的 路 由 
2 | 此 报 文 必 须 由 路 由 器 发 送 ， 用 于 响应 数据 包 大 于 出 接口 的 MTU 值 不 能 
(数据 包 过 大 ) 被 转发 ， 此 报 文 会 携带 本 接口 的 MTU 发 给 源 端 ,是 PMTU 发 现 的 基础 
3 | 0 | 超出 TTL 限制 
(超时 ) | “1 | 分 片 重组 超时 
| “1 | 基本 头 或 者 扩展 头 有 错误 的 字段 
(参数 错误 ) | 2 | 有 不 可 识别 的 next header 字段 
| “3 | 扩展 头 中 有 未 知 的 选项 
128 | 0 |ECHOREQUEST 
129 | 0 |ECHOREPLY 
1.6.4.1 RS 消息 


当主 机 刚刚 接 入 网 络 并 被 配置 为 自动 获取 地 址 , 主机 需要 自动 获得 前 级 、 前 缀 长 度 、 
默认 网 关 等 信息 时 ， 就 会 发 送 RS 消息 。 源 卫 是 发 送 接口 的 Link Local 地 址 或 者 未 指定 
地 址 ， 目 的 地 址 是 FF02::1 或 FF02::2， 路 由 器 收 到 RS 消息 后 立刻 回 送 RA 消息 给 主机 ， 
在 RA 消息 中 有 主机 想 要 的 单 播 地 址 的 前 级 及 前 缀 长 度 等 信息 。 图 1-32 显示 了 RS 消息 
的 详细 格式 。 

Type: 8bit， 值 为 133。 

Code: 8bit， 值 为 0。 
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8 
机 一 十 一 十 一 填 一 十 一 十 一 十 一 十 一 一直 一 十 一 十 一 十 一 卡 一 十 一 十 一 十 一 十 一 十 一 十 一 目 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Type Code Checksum | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Reserved | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Options... 

市 一 二 一 和 二 和 一 书 一 和 一 丰 一 本 一 下 一 在 三 丰 一 圭一 


图 1-32 RS 消息 报 文 格式 


Checksum: 16bit，ICMPv6 校 验 和 ， 用 于 验证 IPvw6 报头 的 完整 性 。 

Reserved: 32bit， 保 留 为 0。 

Options: 选项 ， 目 前 只 定义 了 一 个 ， 包 含 发 送 者 的 链 路 层 地 址 ， 如 果 源 地 址 为 未 指 
定 地 址 ， 则 RS 消息 中 不 能 包含 此 选项 。 

图 1-33 显示 了 通过 Wireshark 抓 取 的 RS 消息 的 详细 格式 。 











1 Ethernet II, Src: HuaweiTe_f0:64:fc (00:e0:fc:f0:64;fc), : IPv6mcast_00:00;00:01 (33:33:00:00:00:01) 
加 TT Protocol or 6， SFE fe80: :2e20:fcff :fefO: 和 +2e0:fcff:fefO:64fc), Dst: ff02::1 (fFf02::1) 






Int 
Type: 
Code: 0 
Checksum: 0xb594 [correct] 

日 ICMPV6 Option (source link-layer address) 

Type: Source link-layer address (1) 

Length: 8 

Link-layer address: 00:e0:fc:f0:64:fc 


图 1-33 RS 消息 范例 


1.6.4.2 RA 消息 

RA 消息 由 路 由 器 周期 性 地 发 送 , 或 者 在 收 到 主机 发 送 的 RS 消息 后 立刻 发 送 ， 主要 
为 主机 提供 编 址 信息 以 及 其 他 配置 信息 。 该 消息 的 源 全 是 发 出 消息 接口 的 Link Local 
地 址 ， 目 的 地 址 是 FF02::1 或 者 为 收 到 的 RS 消息 中 的 源 地 址 。 消 息 格式 如 图 1-34 所 示 。 


人 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 





| Type | Code | Checksum | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Cur Hop Limit IM|o| Reserved | Router Lifetime | 





十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Reachable Time | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Retrans Timer | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Options... 

十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 


图 1-34 RA 消息 的 格式 





Type: 8bit， 值 为 134。 

Code: 8bit， 值 为 0。 

Checksum: 16bit，ICMPvV6 校 验 和 ， 用 于 验证 ICMPv6 报头 。 

Cur Hop Limit: 8bit， 表 示 主 机 跳 数 限制 ， 路 由 器 建议 采用 无 状态 自动 配置 的 主机 
在 全 x 包 的 跳 数 限制 在 该 字段 中 的 值 , 该 值 为 0 时 表示 路 由 器 不 推荐 跳 数 限制 值 ,由 主机 
自己 设置 各 自 的 跳 数 限制 值 。 


Ei 40 


| 第 - 章 IP 路 由 基础 | 


M 位 : lbit， 管 理 地 址 配置 位 ， 该 位 置 0 表示 使 用 无 状态 自动 配置 ， 置 1 表示 告诉 
主机 使 用 DHCPv6 服务 器 来 获取 配置 信息 ， 当 置 1 时 O 位 无 意义 ， 因 为 所 有 参数 都 可 以 
通过 DHCPv6 获得 。 

O 位 : lbit， 表 示 其 他 配置 标志 位 ， 该 位 置 0 表示 DHCPv6 服务 器 没有 其 他 可 用 信 
息 。 该 位 置 1 时 ， 其 他 参数 使 用 DHCPV6 服务 器 获得 ， 包 括 路 由 器 生存 时 间 、 邻 居 可 达 
时 间 、 和 邻居 的 重 传 时 间 、 链 路 的 MTU 信息 和 DNS 相关 信息 等 。 


说 明 : 
如 果 两 个 标记 位 不 设置 ， 那 么 就 表示 无 法 通过 DHCPv6 服务 器 获取 配置 信息 。 


Reserverd: 保留 字段 ，6bit， 该 字段 未 使 用 。 

Router Lifetime: 16bit, 与 默认 路 由 器 关联 的 生存 时 间 ， 以 秒 为 单位 , 最 大 为 65535。 
华为 缺 省 情况 下 为 1800s。 该 值 表示 主机 把 该 路 由 器 作为 默认 网 关 的 有 效 时 间 。 收 到 等 
于 0 的 RA 消息 时 ， 主 机 不 会 将 通告 该 RA 消息 的 源 路 由 器 配置 为 自己 的 默认 网 关 。 主 
机 在 每 次 收 到 RA 消息 时 ， 都 会 刷新 此 计时 器 。 

Reachable Time: 32bit， 以 点 秒 为 单位 ， 表 示 通 告 邻居 的 可 达 时 间 ， 用 作 邻 居 不 可 
达 检 测 ， 为 0 表示 未 指定 。 

Retrans Timer: 32bit， 重 传 计 时 器 ， 以 毫秒 为 单位 ， 表 示 主 机 在 重 传 邻居 请 求 消息 
前 应 该 等 待 的 时 间 ， 为 0 表示 未 指定 。 该 字段 一 般 用 作 地 址 解释 和 邻居 不 可 性 检测 。 

Options: 可 能 包含 的 选项 有 发 送 RA 消息 的 路 由 器 的 链 路 层 地 址 、MTU、 前 缀 信息 。 

图 1-35 显示 了 通过 Wireshark 抓 取 的 由 华为 AR 路 由 器 发 出 的 RA 消息 的 详细 格式 。 


日 Interner Control Message Protocol v6 
Type: 134 (Router advertisement) 
Code: 0 
Checksum: Ox38a0 [correct] 

Cur hop limit: 64 
日 F1ags: Ox00 
0... .... = Not managed 
:0.. .... = Not other 
.0. .... = Not Home Agent 
‘0 0... = Router preference: Medium 
0.. = Notr Proxied 
Rourer lifetime: 1800 
Reachable time: 0 
Retrans timer: 0 
已 ICMPV6 Option (Source link-layer address) 
Type: Source link-layer address (1) 
Length: 8 
Link-iayer address: 00:e0;:fc:c0:69:d3 
昌 ICMPV6 Option (Prefix information) 
Type: Prefix information (3) 
Length: 32 
prefix Length: 64 
国 Flags: 0xc0 
Valid lifetime: 2592000 
Preferred 1ifetime: 604800 
Reserved 
Prefix: 2001:: 


图 1-35 RA 消息 范例 
IPv6 设备 可 以 利用 RS 和 RA 消息 完成 以 下 功能 : 无 状态 自动 配置 和 路 由 器 发 现 。 
1.6.4.3 NS 消息 
当 节 点 不 知道 目标 地 址 的 链 路 层 地 址 时 ， 将 发 送 NS 消息 。 此 时 NS 消息 的 源 地 址 
是 发 送 接口 的 global 地 址 ， 目 标 地址 是 被 访问 的 地 址 所 对 应 的 被 请 求 节点 组 播 地 址 。 此 
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消息 中 包含 发 送 端的 链 路 层 地 址 ， 作 用 类 似 于 ARP 请 求 , 这 里 的 链 路 层 地 址 一 般 是 指 以 
太 网 的 MAC 地 址 。 此 外 ，NS 还 可 以 用 来 检测 邻居 的 可 达 性 和 进行 地 址 冲突 检测 ， 当 节 
点 需要 验证 邻居 的 可 达 性 时 , 将 发 送 单 播 的 NS 消息 ; 在 DAD (重复 地 址 检测 ) 过 程 中 ， 
源 地 址 为 未 指定 地 址 。NS 的 消息 格式 如 图 1-36 所 示 。 

人 和 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 
| Type | Code Checksum 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 二 一 十 


| Reserved 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 











| 
十 
| 
Target Address 
| 
十 
| 


+ 一 + 一 + 一 + 一 + 一 + 一 十 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Options... 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 


图 1-36 NS 消息 格式 





Type: 8bit， 值 为 135。 

Code: 8bit， 值 为 0。 

Checksum: 16bit，ICMPv6 校 验 和 ， 用 来 验证 ICMPvV6 报头 。 

Reserved: 32bit， 该 字段 未 使 用 ， 保 留 为 0。 

Target Address: 128bit， 请 求 的 目标 设备 的 IPv6 地 址 ， 该 字段 不 能 使 用 组 播 地 址 。 

Options: 选项 ， 发 送 者 的 链 路 层 地 址 。 当 源 IP 地 址 是 未 指定 地 址 时 不 能 包括 此 选 
项 。 在 有 IPv6 地 址 的 链 路 层 上 ， 必 须 包含 此 选项 。 

图 1-37 是 NS 的 消息 范例 。 


田 Ethernet II, Src: HuaweiTe_9a:4c:44 (00:e0:fc:9a:4c:44), Dst: IPv6mcast_ff:00:00:02 (33:;33:ff:00:00:02) 
E Internet Protocol Version 6, src: 2000::1 (2000::1), Dst: ff02::1:ff00:2 (ff02::1:ff00:2) 
B Internet Control Message protocol v6 
Type: 135 (Neighbor solicitation) 
Code: 0 
Checksum: Oxefda [correct] 
Reserved: 0 (should always be zero) 
Target: 2000::2 (2000::2) 
电 ICMPv6 Option (Source link-Tlayer address) 
Type: Se 1ink-1ayer address (1) 
Length: 
Link- 总 address: 00:e0:fc:9a:4c:44 


图 1-37 NS 消息 范例 

1.6.4.4 NA 消息 

当 节 点 接受 到 NS 消息 后 ， 会 快速 响应 NA 消息 ， 或 者 当 节 点 需要 快速 传播 新 的 信 
息 〈 非 请 求 ) 时 ， 也 会 发 送 NA 消息 。 对 于 收 到 NS 后 回复 的 NA 消息 是 以 单 播 的 形式 
发 送 的 ， 源 IP 是 被 访问 的 全 地址 ， 目 的 全 是 NS 消息 中 的 源 地址 ， 如 果 收 到 的 NS 消 
息 中 的 源 地 址 是 未 指定 地 址 ， 则 NA 消息 的 目的 地 址 为 所 有 节点 的 组 播 地 址 ， 作 用 类 似 
于 ARP 啊 应 。 对 于 非 请 求 的 NA 消息 ， 目 的 地 址 为 所 有 节点 的 组 播 地 址 。NA 的 消息 格 
式 如 图 1-38 所 示 。 
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0 

十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Type Code | Checksum | 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 二 一 十 一 十 一 十 一 寿 一 十 一 十 一 十 一 十 二 十 一 十 一 十 一 十 一 圭一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 二 
|Rlslol Reserved 

十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 填 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 








| 
+ 
| | 
+ 
| | 
第 Target Address 尝 
十 十 
十 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 
| Options... 
十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 


图 1-38 NA 消息 的 格式 


Type: 8bit， 值 为 136。 

Code: 8bit, 值 为 0。 

Checksum: 16bit，ICMPv6 校 验 和 ， 用 于 验证 ICMPv6 的 报头 。 

R 位 : lbit， 路 由 器 标记 位 ， 置 1 表示 该 节点 为 路 由 器 ， 在 邻居 不 可 达 检 测 中 检测 路 
由 器 是 否 变 成 主机 。 

S 位 : lbit， 请 求 标记 位 ， 置 1 表示 该 NA 消息 是 收 到 NS 消息 后 的 回应 。S 位 在 邻 
居 可 达 性 检测 时 被 用 作 可 达 性 确认 。 

O 位 : 1bit, 蔡 代 标记 位 , 置 1 表示 需要 替代 当前 已 缓存 的 IPv6 地 址 的 链 路 层 地 址 ， 
从 而 更 新 邻居 缓存 表 项 。 如 果 置 0， 则 表示 该 NA 消息 不 更 新 现 有 的 链 路 层 地 址 ， 如 果 
没有 相应 的 链 路 层 地 址 ， 则 添加 新 的 表 项 。 

Reserved: 29bit， 该 字段 未 使 用 ， 保 留 为 0。 

Target Address: 128bit， 如 果 用 作 NS 回应 的 NA 消息 ， 此 字段 应 该 是 收 到 NS 消息 
中 的 Target Address 字段 的 值 , 对 于 非 响应 的 NA 消息 ,此 字段 应 该 是 链 路 层 地 址 发 生变 
化 的 IPv6 地 址 。 

Options: 选项 , 包含 此 NA 消息 发 送 者 的 链 路 层 地 址 , 对 于 回应 组 播 NS 请 求 的 NA 
消息 必须 包含 此 选项 ， 对 于 回应 单 播 NS 请 求 的 NA 消息 可 以 不 包含 此 选项 ， 因 为 单 播 
NS 请 求 的 发 送 者 有 正确 的 链 路 层 地 址 。 

NA 的 消息 范例 如 图 1-39 所 示 。 

田 Ethernet II, Src: HuaweiTe_19:54:af (00:e0Q:fc:19:54:af), Dst: HuaweiTe_4¢t:66:47 (00:e0:fc:4c:66:47) 
HInternert Protocol Version 6, src: 2000::2 (2000::;2), Dst: 2000:;:1 (2000::1) 
Internet Control Message Protocol v6 
Type: 136 (Neighbor advertisement) 
Code: 0 
Checksum: Oxe3f4 [correct] 
BB Flags: Oxe0000000 
9 ee ee ee 
wo jad oan ees vee mene Eas wass WOVEride 
Target: 2000::2 (2000::2) 
E ICMPV6 Option (Target link-layer address) 
Type: Target link-layer address (2) 


Length: 8 本 
Link-layer address: 00:e0:fc:19:54:af 


图 1-39 NA 消息 范例 
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1.6.4.5 重 定向 消息 
重 定向 消息 格式 如 图 1-40 所 示 。 


让 到 有 者 让 人 





十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 
| Type | Code | Checksum | 
下 二 后 一 于 一 求 一 扣 二 本 一 中 三 机 二 目 三 让 一 平一 站 三 证 一 夺 三 再 一 市 二 玉 一 让 三 于 二 下 二 下 = 让 一 再 一 于 二 生 一 让 一 璐 = 十 二 书 王 宙 一 本 二 二 = 坟 
| Reserved | 





李 二 事 握 生 二 夺 一 赴 二 于 二 才 二 平一 韦 二 璐 三 天 二 开 二 未 天 下 一 市 王孙 去 本 二 王 事 二 看 三 本 于 中 二 可 一 水 二 玉林 二 本 二 有 二 刺 一 下 下 二 不 二 和 
Target Address | 

, 

| 

一 出 一 症 一 二 一 二 一 于 = 人 二 卡 二 于 一 环 三 机 二 市 二 下 = 守 一 于 三才 一 中 二 忆 一 于 一 贞 二 中 = 十 二 要 = 汕 记 二 一生 沪 寺 二 汕 二 第 = 二 一 在 一 证 = 中 


Destination Address 





一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 
Options... 
一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 


图 1-40 重 定 向 消息 格式 


| 
十 
| 
本 
| 
十 
本 
| 
十 
十 
| 
+ 
| 
+ 


Type: 8bit， 值 为 137。 

Code: 8bit， 值 为 0。 

Checksum: 16bit，ICMPv6 校 验 和 ， 用 于 验证 ICMPv6 报头 。 

Reserved: 32bit， 该 字段 未 使 用 ， 保 留 为 0。 

Target Address: 是 通知 到 主机 的 最 优 下 一 跳 路 由 器 ， 必 须 是 该 下 一 跳 路 由 器 的 link 
local 地 址 ; 当 目 的 地 是 邻居 时 ，Target Address 必须 是 Destination Address， 否 则 是 重 定 
向 后 的 下 一 跳 路 由 器 地 址 。 

Destination Address: 需要 被 重 定向 的 目的 地 址 。 

Options: 选项 ， 包 含 目 标 地址 〈 重 定向 后 使 用 的 下 一 跳 路 由 器 ) 的 链 路 层 地 址 。 

路 由 器 可 以 通过 ICMPv6 重 定向 消息 通知 主机 ， 在 去 往 目的 地 址 的 路 径 上 有 更 优 的 
下 一 跳 ， 主 机 发 出 的 数据 包 能 被 重 定向 到 更 好 的 下 一 跳 路 由 器 ， 也 可 以 用 于 通知 目标 地 址 
就 是 邻居 。 重 定向 消息 只 对 主机 有 效 ， 对 路 由 器 无 效 。 消 息 的 源 地 址 是 发 送 接口 的 链 路 本 
地 地 址 ， 目 的 地 址 是 触发 此 重 定向 报 文 的 源 地 址 。ICMPv6 重 定向 报 文 范例 如 图 1-41 所 示 。 


Type: Redirect (137) 


Code: 0 
Checksum: Oxcb00 [correct] 
Reserved: 00000000 


Target Address: fe80::3 (fe80::3) 
Destination Address: 2001::3 (2001::3) 


图 1-41 ICMPv6 重 定向 报 文 范例 
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1.7.1 NDP 概述 


节点 使 用 ND， 可 以 确定 连接 在 同一 链 路 上 的 邻居 的 链 路 层 地 址 ， 快 速 清除 已 经 变 
成 无 效 的 缓存 值 。 主 机 也 使 用 ND 发 现 能 为 其 转发 报 文 的 路 由 器 。 最 后 ， 节 点 使 用 此 协 
议 主 动 跟踪 哪 一 个 邻居 可 达 ， 哪 一 个 邻居 不 可 达 ， 以 及 侦 听 邻居 们 改变 的 链 路 层 地 址 。 
当 路 由 器 或 到 路 由 器 的 路 径 出 现 故障 时 ， 主 机 主动 搜索 正常 运行 的 奉 代 者 。 同 时 IPv6 文 
持 即 插 即 用 ， 主 机 除了 可 以 使 用 传统 的 DHCP 获取 地 址 之 外 ， 还 可 以 完成 IPv6 地 址 的 
自动 配置 等 。 
IPv6 的 NDP〈 邻 居 发 现 协 议 ) 可 以 解决 以 下 问题 。 
路 由 器 发 现 ， 主机 如 何 找到 连接 在 同一 链 路 上 的 路 由 器 。 
。 ”前 级 发 现 ， 主机 如 何 发 现 前 缀 集合 。 
e。 ”参数 发 现 ， 节点 如 何 发 现 链 路 上 的 参数 (如 链 路 MTU)， 以 及 互联 网 参数 (如 
TTL 跳 数 )。 
。 地址 自动 配置 : 一 种 新 的 机 制 ， 允 许 节点 采用 无 状态 方式 自动 配置 接口 所 需要 
的 卫 地 址 。 
。 ”地 址 解析 : 仅 知 道 目的 地 他 地 址 时 ， 如 何 获得 目的 地 的 链 路 层 地 址 ， 类 似 ARP。 
。 下 一 跳 确定 : 映射 目的 地 了 P 地 址 到 邻居 地 址 的 算法 , 发 送 给 该 目的 地 的 流量 将 
会 发 送 给 该 邻居 地 址 (下 一 跳 )， 下 一 跳 可 以 是 路 由 器 或 者 目的 地 本 身 。 
。 ”邻居 不 可 达 检 测 : 节点 如 何 确定 邻居 不 再 可 达 。 如 果 邻 居 被 用 作 路 由 器 ， 其 不 
可 达 时 需要 尝试 替代 默认 路 由 器 。 
。 重复 地 址 检测 :用 作 节 点 确定 自己 想 使 用 的 地 址 是 否 已 经 被 男 一 个 节点 所 使 用 。 
。 重 定 向 : 路 由 器 如 何 通 知 主机 有 到 达 目 的 地 更 好 的 下 一 跳 。 
NDP 整合 了 IPv4 中 的 ARP、ICMP 重 定向 、ICMP 路 由 器 发 现 ， 并 且 进 行 了 改进 。 
NDP 协议 工作 会 使 用 如 下 几 个 地 址 。 
。 未 指定 地 址 : 表示 发 送 者 暂时 无 地 址 。 
链 路 本 地 地 址 : 只 在 链 路 范围 内 的 单 播 地 址 。 
FF02::1〈 所 有 节点 组 播 地 址 ): 到 本 链 路 范围 内 的 所 有 节点 地 址 。 
(FF02::2〈 所 有 路 由 器 多 播 地 址 ): 到 本 链 路 范围 内 的 所 有 路 由 器 地 址 。 
被 请 求 节点 组 播 地 址 : 由 固定 前 缀 FF02::1:FF00:0/104 和 单 播 地址 的 最 后 24 位 
组 成 。 
NDP 主要 消息 及 工作 原理 
NDP 协议 的 工作 主要 依靠 以 下 5 种 ICMPv6 的 报 文 来 实现 。 
。 路 由 器 请 求 (RS) 消息 。 
e。 路 由 器 通告 (RA) 消息 。 
e ”邻居 请 求 (NS) 消息 。 
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。 邻居 通告 (NA) 消息。 
。 重 定向 消息 。 


1.7.2 ”无 状态 自动 配置 
如 图 1-42 所 示 ， 在 一 个 IPv6 的 局 域 网 中 ， 主 机 通过 无 状态 自动 配置 地 址 信息 的 场景 。 


RA RS 
ICMP Type=134 eT i 
Source=router link-local address 
Destination=all-nodes multicast address (FF02::1) ICMP Type=133 
Data=Router lifetime, Cur hop limit, Autoconfig flag, Source=self interface address 
options (prefix、 MTU)...... Destination=all-router multicast address (FF02::2) 


图 1-42 RA 和 RS 消息 的 处 理 过 程 


当 PC 接 入 网 络 并 加 电 后 ， 会 发 出 RS 消息 ， 路 由 器 收 到 RS 消息 会 回应 RA 消息 ， 
具体 步骤 如 下 。 

第 1 步 : PC 发 出 RS 消息 ， 向 路 由 器 进行 请 求 。RS 消息 是 通过 类 型 为 133 的 ICMPv6 
报 文 来 发 送 的 ， 发 送 到 目标 地 址 FF02::2。 

第 2 步 : 路 由 器 以 RA 消息 作为 回应 。 该 消息 包括 PC 所 需要 的 前 级 、 前 级 长 度 等 
信息 ; 该 消息 发 送 到 所 有 主机 地 址 FF02::1。 

第 3 步 : PC 接收 到 RA 消息 后 ， 使 用 其 中 的 前 级 和 前 绥 长 度 信息 完成 地 址 的 自动 配 
置 ; PC 还 会 将 RA 消息 中 宣告 的 链 路 本 地 地 址 添加 到 本 地 的 默认 路 由 器 列表 中 ， 并 将 该 
路 由 器 作为 默认 网 关 。 

第 4 步 ， PC 完成 地 址 的 自动 生成 过 程 后 ， 在 使 用 该 地 址 前 还 会 进行 DAD (重复 地 
址 检测 ) 的 过 程 以 确认 该 地 址 是 否 被 其 他 设备 使 用 。 关 于 DAD 下 一 节 会 详细 介绍 。 


1.7.3 路 由 器 发 现 
如 果 该 局 域 网 中 有 两 台 路 由 器 同时 为 主机 提供 RA 消息 ， 如 图 1-43 所 示 。 





ICMP Type=134 a qi 

Source=router link-local address 

Destination=all-nodes multicast address (FF02::1) ICMP Type=134 

Data=Router lifetime, Cur hop limit, Autoconfig flag, Source=router link-local address 

options (prefix、 MTU)...... Destination=all-nodes multicast address (FF02::1) 


Data=Router lifetime, Cur hop limit, Autoconfig flag, 
options (prefix、 MTU)...... 


图 1-43 主机 同时 收 到 多 份 RA 消息 的 选择 


RA 消息 的 格式 中 在 Flag 字段 中 有 一 个 Router preference 的 标志 位 ， 该 标记 位 用 于 
主机 选择 默认 网 关 ， 如 图 1-44 所 示 。 
主机 根据 路 由 器 在 各 自 RA 消息 中 通告 的 优先 级 选择 默认 网 关 , 共有 3 个 优先 等 级 : 
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low、medium、high。 华 为 路 由 器 发 出 的 RA 消息 中 的 默认 级 别 为 中 级 ， 主 机 最 终 会 在 所 
有 路 由 器 中 间 选 择优 先 级 最 高 的 路 由 器 作为 默 ”Fiags:" oxoo 
认 网 关 。 如 果 所 有 路 由 器 的 优先 级 都 一 样 , 那 。 06. 2 Not spa 
么 主机 将 这 些 路 由 器 都 用 作 默 认 网 关 ， 也 就 是 。。” 广 入 语 Neves 
使 用 负载 分 担 的 方式 。 i 
路 由 器 每 隔 一 段 周期 向 网 络 中 发 送 RA 消 RA 
息 ， 华 为 路 由 器 默认 间隔 是 200~600s 之 间 的 一 个 随机 值 。 以 此 通告 IPv6 的 前 级 ， 华 为 
路 由 器 默认 不 开启 RA 通告 ， 使 用 命令 ， undo ipv6 nd ra halt 可 以 开启 IPv6 RA 通告 功能 。 
在 图 1-45 显示 的 RA 消息 选项 中 , 还 有 两 个 字段 需要 介绍 一 下 : 优选 生存 期 (Preferered 
Lifetime) 和 有 效 生 存 期 (Valid Lifetime)。 当 一 个 IPv6 地 址 刚 被 配置 在 接口 上 时 ， 这 个 
地 址 叫 试验 地 址 ， 这 个 地 址 还 不 能 立刻 被 用 于 通信 ， 必 须 先 进行 DAD〈 地 址 冲突 检测 ); 
如 果 通 过 地 址 冲突 检测 并 且 无 冲突 后 ， 即 可 被 视 为 优选 地 址 。 
优选 生存 期 就 是 指 主机 将 以 无 状态 自动 配置 方式 生成 的 地 址 视 为 优选 地 址 的 时 间 
(以 s 为 单位 )。 主 机 可 以 使 用 优选 地 址 跟 其 他 设备 进行 通信 。 如 果 优 选 生存 期 到 期 ， 设 
备 不 再 使 用 该 地 址 创建 新 的 通信 连接 。 有 效 生 存 期 是 指 主 机 收 到 的 来 自 路 由 器 RA 消息 
中 的 前 级 可 以 使 用 的 时 间 (以 s 为 单位 )， 有 效 生存 期 必须 大 于 优选 生存 期 ， 在 优选 生存 
期 到 期 后 ， 有 效 生 存 期 到 期 前 ， 主 机 通过 该 地 址 已 建立 的 连接 还 是 继续 可 以 用 的 ， 直 到 
该 地 址 的 有 效 生 存 期 到 期 。 图 1-45 显示 了 这 两 个 时 间 的 关系 。 


Valid lifetime 
Preferred lifetime 


DAD 
t Tentativet 





Preferred ee Deprecated t Invalid 


图 1-45 ”优选 生存 期 和 有 效 生存 期 关系 


IPv6 的 NDP 可 以 利用 NS 和 NA 消息 完成 以 下 三 个 功能 。 
。 地址 解析 

。 DAD (重复 地 址 检测 ) 

。 NUD (邻居 不 可 达 性 检测 》 


1.7.4 ”地址 解析 


地 址 解析 是 指使 用 NS 和 NA 消息 来 完成 IPv6 地 址 到 链 路 层 地 址 映射 的 过 程 ， 该 过 
程 类 似 于 IPv4 中 的 ARP， 如 图 1-46 所 示 。 

如 图 1-47 所 示 ，PC1 准备 访问 PC2 之 前 ， 首 先 在 本 地 邻居 表 中 查找 PC2 IPv6 地 址 
对 应 的 以 太 网 MAC 地 址 ， 如 果 查 找到 相关 表 项 ， 则 将 发 往 PC2 的 数据 包 封装 在 以 太 数 
据 帧 中 然后 发 出 ， 如 果 没 有 找到 PC2 的 MAC 地 址 ， 则 发 送 NS 消息 用 来 请 求 其 链 路 层 
地 址 。 具 体 的 步骤 如 下 。 

第 1 步 : PC1 向 PC2 的 请 求 节点 的 组 播 地 址 发 送 NS 消息 ， 该 消息 是 通过 类 型 为 135 
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的 ICMPv6 报 文 来 承载 ， 目 标 地 址 是 PC2 的 IPv6 单 播 地 址 。 请 求 节点 的 组 播 地 址 在 后 


文中 会 介绍 。 
PC1 PC2 
下 四 
ICMP Type=135 NS 
Source=PC1 





Destination=solicited-node multicast of PC2 
Data=link-layer address of PC1 
Query=What is your link-layer address? ICMP Type=136 
Source=PC2 
NA Destination=PC1 
Data=link-layer address of PC2 





图 1-46 ND 地 址 解析 


第 2 步 : PC2 收 到 NS 消息 后 ， 以 单 播 的 方式 向 PC1 回应 NA 消息 ， 该 消息 中 包含 
了 PC2 的 MAC 地 址 。 PC2 还 会 将 PC1 的 IPv6 地 址 和 MAC 地 址 添加 至 本 地 的 邻居 缓存 
表 中 。 

第 3 步 : PC1 收 到 来 自 PC2 的 NA 消息 后 ， 将 PC2 的 IPv6 地 址 以 及 它 的 MAC 地 
址 添加 至 本 地 的 邻居 缓存 表 中 。 

假设 图 1-46 中 PC1 的 IPvw6 地 址 为 2001::1/64，PC2 的 IPv6 地 址 为 2001::2/64。 
图 1-47 是 通过 Wireshark 抓 取 的 PC1 发 送出 来 的 NS 报 文 。 


Internet Protoco] Version 6, Src: 2001::1 (2001::1), Dst: ff02::1:ff00:2 (ff02::1:ff00:2) 
3 Internet Control Message Protocol v6 
Type: 135 (Neighbor solicitation) 


Code: 0 PC2 的 请 求 节点 组 播 地 址 
Checksum: 0x23b0 [correct] 
Reserved: 0 (should lays be zero) 
Target: 2001::2 (2001::2) 
日 ICMPV6 Option (source link-layer address) 
Type: Source link-layer address (1) 
Length: 8 
Link-layer address: O00:e0:fc:b0:18:57 


1-47 PC1 发 出 的 NS 报 文 


如 图 1-47 所 示 , PC1 的 NS 报 文 是 发 送 到 一 个 组 播 IPv6 地 址 , 这 个 地 址 我 们 称 为 请 
求 节点 组 播 地 址 。 一 个 IPv6 接口 会 通过 自动 映射 技术 为 自己 的 每 个 单 播 地 址 (包括 链 路 
本 地 地 址 ) 创建 一 个 请 求 节点 组 播 地 址 。 该 地 址 由 固定 的 前 级 加 上 IPv6 单 播 地 址 的 最 后 
24bit 位 构成 ， 前 缀 是 FF02:0:0:0:0:1:FF00::/104。 在 图 1-46 中 ，PC2 的 IPv6 地 址 是 
2001::2/64， 它 的 最 后 24 位 为 00:0002， 加 上 前 级 ， 它 的 请 求 组 播 地 址 为 FF02:0:0:0:0: 
1:FF00::2。 当 PC2 接收 到 这 份 NS 报 文 后 ， 识 别 目标 地 址 自己 接口 的 请 求 组 播 地 址 ， 因 
此 会 接收 和 处 理 该 数据 包 ， 并 且 给 予 NA 报 文 响应 。 

在 图 1-46 中 的 网 络 中 , 有 可 能 存在 IPv6 地 址 最 后 24 比特 和 PC2 相同 的 的 设备 , 当 
这 些 设备 接收 到 PC1 的 NS 报 文 时 ， 根 据 ICMPvV6 报 文中 的 目标 地 址 来 辨别 该 报 文 是 否 
是 发 给 自己 的 。 也 就 是 说 ， 即 使 同 个 局 域 网 中 有 多 台 设 备 的 单 播 IPv6 地 址 最 后 24 比特 位 
相同 ， 也 不 会 影响 地 址 解析 的 进程 。 至 于 NS 报 文 为 什么 会 以 组 播 方 式 而 不 以 单 播 方式 发 
送 ， 有 兴趣 的 读者 可 以 参阅 RFC 2461 和 RFC 4861， 这 两 个 RFC 详细 解释 了 这 个 问题 。 


i 48 


| 第 - 章 IP 路 由 基础 | 


1.7.5 DAD (重复 地 址 检测 ) 


网 络 中 的 设备 可 以 使 用 DAD 机 制 来 确认 自己 用 的 IPv6 地 址 是 否 被 其 他 设备 使 用 。 
如 果 一 个 接口 配置 了 多 个 IPv6 单 播 地 址 〈 包 括 链 路 本 地 地 址 或 全 局 单 播 地 址 )， 每 个 地 
址 在 使 用 之 前 ， 都 需要 执行 DAD 的 过 程 。 如 果 通 过 DAD 过 程 发 现 了 重复 地 址 ， 那 么 接 
口 就 不 能 使 用 该 地 址 。 如 图 1-48 所 示 ，PC1 配置 了 地 址 2001::1 (通过 手工 或 无 状态 自 
动 配置 或 通过 DHCPv6 自动 获取 ), PC1 在 使 用 该 地 址 前 必须 进行 DAD, 有 具体 步骤 如 下 。 


tentative address 2001::1 PCI1 PC2 2001::1 
i 了 
ICMP Type=135 NS 





Source=:: 

Destination=FF02::1:FF00:1 

Target Address=2001::1 

Query=Is anyone using this address? ICMP Type=136 
Source=2000::[ 

NA Destinationt=FF02::1 

Target Address=2001::1 
Answer=Iam using this address 





图 1-48 重复 地 址 检测 


第 1 步 : PC1 配置 了 地 址 2001::1， 该 地 址 在 进行 DAD 过 程 之 前 称 为 试验 〈tentative) 
地 址 。 

第 2 步 : PC1 发 出 NS 消息 以 确定 网 络 中 是 否 还 有 其 他 设备 使 用 该 IPv6 地 址 。 如 
1-48 所 示 ，PC1 发 出 NS 消息 ， 目 标 IPv6 地 址 是 2001::1 对 应 的 请 求 组 播 地 址 。 

第 3 步 ， 如 果 这 时 PC2 的 IPv6 地 址 是 2001::1， 那 么 它 在 收 到 PC1 的 NS 消息 后 ， 
会 用 NA 消息 进行 响应 ， 告 诉 PC1 它 也 在 使 用 该 地 址 ; 否则 不 会 响应 。 

第 4 步 : PC1 在 发 送出 NS 消息 后 会 设置 一 个 定时 器 , 如 果 在 定时 器 内 接收 到 了 NA 
响应 , 说明 该 试验 地 址 已 经 被 其 他 设备 占用 ，PC1 会 停止 使 用 该 地 址 ; 如 果 在 定时 器 内 ， 
没有 收 到 NA 响应 ， 说 明 该 地 址 可 以 使 用 ， 那 么 该 地 址 会 从 试验 状态 切换 到 已 分 配 
(assigned) 状态 。 

NUD (邻居 不 可 达 性 检测 ) 

对 于 NDP 来 说 , 它 会 将 已 发 现 的 邻居 设备 放 在 邻居 缓存 表 , 该 表 中 包含 了 邻居 IPv6 
地 址 及 其 对 应 的 二 层 地 址 (通常 是 以 太 网 MAC 地 址 ), 相当 于 IPv4 的 ARP 缓存 表 。 NDP 
为 维护 邻居 缓存 表 , 会 定期 跟踪 邻居 的 状态 。NUD 就 是 用 来 检测 邻居 状态 的 进程 ,通过 
定期 发 送 NS 以 确定 邻居 的 状态 。RFC4861 中 定义 了 5 种 邻居 状态 ， 图 1-49 解释 了 这 些 
状态 以 及 在 这 些 状 态 之 间 的 事件 .NUD 利用 这 些 状态 以 及 状态 之 间 的 切换 过 程 来 检测 和 
解析 邻居 的 可 达 性 问题 。 

如 图 1-49 所 示 ， 各 状态 的 解析 如 下 。 | 

。 INCOMPLETE (未 完成 状态 ): 此 状态 表示 地 址 解析 还 在 进行 ， 本 机 已 经 发 送 

NS 消息 ， 但 还 没有 收 到 NA 消息 。 
。 REACHABLE (可 达 状 态 ): 此 状态 表示 已 经 收 到 了 对 方 发 送 的 NA 消息 ， 获 得 
了 对 方 的 链 路 层 地址 。 
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邻居 可 达 时 间 超时 或 
收 到 非 请 求 NA 












有 报 文 需要 发 送 
REACHABLE 


SN 收 到 NA 消息 
PROBE 


图 1-49 ”邻居 状态 


。 STALE 〈 过 期 状态 ): 邻居 可 达 时 间 超 时 ， 表 示 未 知 是 否 可 达 。 或 者 收 到 了 邻 
居 发 送 的 非 请 求 的 NA 消息 ， 携 带 的 链 路 层 地 址 和 本 地 表 项 中 地 址 不 符合 ， 该 
邻居 状态 立刻 变 成 STALE 状态 。 
。 DELAY (延迟 状态 ): DELAY 状态 不 是 一 个 稳定 的 状态 ,而 是 一 个 延 时 等 待 状 
态 。 当 向 处 于 STALE 状态 的 邻居 发 送 报 文 时 ， 该 邻居 状态 变 成 DELAY 状态 ， 
并 发 送 NS 消息 。 
。 PROBE (探测 状态 ): 节点 会 向 处 于 PROBE 状态 的 邻居 持续 发 送 单 播 NS 报 文 ， 
如 持续 收 不 到 NA 回应 ， 将 删除 表 项 ， 如 收 到 NA 回应 一 邻居 状态 变 为 
REACHABLE。 
。 EMPTY (空闲 状态 ): 表示 节点 上 没有 相关 邻接 点 的 邻居 缓存 表 项 。 
邻居 状态 跟踪 与 地 址 解析 的 区 别 
地 址 解析 的 NS 消息 目的 地 址 是 被 请 求 节点 组 播 地 址 ， 而 邻居 状态 跟踪 的 NS 消息 
目标 地 址 是 单 播 。 
邻居 状态 跟踪 的 NS 消息 中 $ 位 必须 置 位 。 
可 以 使 用 命令 display ipv6 neighbors 来 查看 路 由 器 的 邻居 表 ， 如 下 例 显示 了 路 由 器 
R1 的 邻居 缓存 表 中 其 中 一 个 邻居 路 由 器 的 表 项 信息 ， 该 邻居 的 IPv6 地 址 是 2001::2， 邻 





居 状 态 是 可 达 的 。 
[R1]display ipv6 neighbors 
IJPv6 Address : 2001::2 
Link-layer :00e0-fc66-71a8 State : REACH 
Jnterface :GE0/0/0 ~ Age :0 
VLAN a: A CEVLAN:- 


VPN name : ; Is Router: TRUE 
Secure FLAG :UN-SECURE 


IPv6 Address :FE80::2E0:FCFF:FE66:71A8 


Link-layer :00e0-fc66-71a8 State : DELAY 
Interface :GE0/0/0 为 ge 一 *19 
VLAN 2 CEVLAN:- 
VPNname  :; | | Is Router: TRUE 


Secure FLAG :UN-SECURE 
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Total: 2 Dynamic: 2 Static: 0 
1.7.6” 重 定向 原理 


路 由 器 发 送 重 定向 消息 需要 满足 以 下 规则 : 

。 检查 收 到 数据 包 的 源 地 址 ， 是 本 设备 的 邻居 表 中 的 邻居 ; 

e 下 一 跳 的 接口 等 于 收 到 数据 包 的 接口 ; 

e。 数据 包 的 目的 地 址 不 是 一 个 组 播 地 址 。 

主机 接收 到 的 重 定向 消息 必须 满足 以 下 条 件 ， 否 则 将 被 丢弃 。 

e 报 文 的 源 地 址 必须 是 一 个 link local 地 址 .路 由 器 必须 使 用 它们 的 link local 地 址 
作为 RA 消息 以 及 重 定向 消息 的 源 地 址 ， 以 便 主机 能 唯一 识别 路 由 器 。 
HOP LIMIT 字段 必须 等 于 255， 报 文 不 可 能 被 路 由 器 转发 。 

ICMP 校 验 和 有 效 。 

ICMP Code 必须 是 0。 

ICMP 报 文 的 长 度 必须 是 40Byte 或 以 上 。 

所 有 包含 的 选项 长 度 必须 大 于 0。 

如 图 1-50 所 示 ，PC1 要 访问 目标 地 址 2001::3， 查 找 路 由 表 ， 下 一 跳 地 址 是 2000::2 
(R2),PC1 会 把 数据 包 给 到 R2, 当 R2 收 到 数据 包 后 , 发 现 去 往 2001::3 的 下 一 跳 是 fe80::3 
(R3)， 并 且 数 据 包 的 进 接口 等 于 出 接口 ， 则 向 原 报 文 的 源 卫 2000::1 发 送 单 播 的 重 定向 
报 文 ， 告 诉 PC1 去 往 2001::3 的 最 优 下 一 跳 是 FE80::3。 以 后 PC1 访问 2001::3 报 文 直接 
发 给 R3， 而 不 会 再 发 给 R2。 

图 1-51 是 R2 发 送 的 重 定向 报 文 , 其 中 ，Destination Address 表示 需要 被 重 定向 的 目 
的 地 址 ，Target Address 表示 去 往 目 的 地 址 的 最 优 下 一 跳 。 


Type: Redirect (137) 

Code: 0 

Checksum: Oxcb00 [correct] 

Reserved: 00000000 

Target Address: fe80::3 (fe80::3) 
Destination Address: 2001::3 (2001::3) 





图 1-50 ICMPv6 重 定向 场景 图 1-51 R2 发 送 的 重 定向 报 文 


1.8 ”思考 题 


1. 查 RIB 和 查 FIB 有 什么 区 别 ? 数据 报 文 的 查 表 过 程 。 
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2. 是 否 矢量 路 由 协议 就 出 环 ， 而 链 路 状态 路 由 协议 没有 环 路 ? 请 解释 一 下 。 

3. 链 路 状态 路 由 协议 是 如 何 做 到 ECMP 的 ? 

4. IPV6 的 NDP 协议 中 ，DAD 功能 是 否 在 IPv4 中 有 类 似 的 功能 ? 

5. JIPv4 的 地 址 的 自动 配置 和 IPv6 有 什么 不 同 ? 

6. ICMPv6 在 IPv6 中 的 作用 有 哪些 ? 

7，IPV6 协议 较 IPv4 协议 的 优点 有 哪些 ? 

8. IPv6 中 请 求 节点 组 播 地 址 〈solicited-node multicast address) 可 以 用 来 替代 广播 地 

? 
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第 二 章 
路 由 信息 协议 


本 章 详细 介绍 了 路 由 信息 协议 ( RIP ) 的 工作 原理 及 防 环 机 制 ， 通 过 案例 阐述 了 RIPvl 
与 RIPv2 的 不 同 之 处 ， 井 通过 对 一 些 高 级 特性 的 分 析 ， 让 读者 更 加 清楚 有 类 路 由 协议 与 
无 类 路 由 协议 之 间 的 区 别 。RIP 是 一 个 比较 早期 的 协议 ,在 实际 部 署 中 较 少 使 用 ,但 RIP 
协议 的 机 制 是 所 有 矢量 路 由 协议 的 基础 ， 因 此 ， 掌 握 RIP 协议 的 工作 原理 对 研究 矢量 路 
由 协议 有 重要 的 价值 。 


本 章 主 要 内 容 : 


© RIPvl/v2 协议 的 工作 原理 及 对 比 
© RIP 的 防 环 机 制 

© RIP 的 路 由 控制 

© RIP 的 高 级 特性 分 析 

© RIP 的 案例 分 析 

© RIPng 的 原理 及 配置 示例 
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2.1 RIP 的 基本 知识 


RIP (Routing Information Protocol， 路 由 信息 协议 ) 是 一 种 较为 简单 的 、 基 于 距离 矢 
量 (Distance-Vector) 算法 的 内 部 网 关 协 议 (Interior Gateway Protocol)， 它 采用 跳 数 
(Hop Count) 作为 度量 来 衡量 到 达 目 的 网 络 的 距离 。 距 离 矢 量 算法 最 早 是 由 Ford 和 
Fulkerson 这 两 个 人 提出 的 ， 正 因为 如 此 ， 在 早期 ， 距 离 矢 量 算法 被 称 为 Ford-Fulkerson 
算法 ， 而 现在 也 有 人 把 它 称 为 Bellman-Ford 算法 。RIP 包括 RIPv1 和 RIPv2 两 个 版 本 ， 
RIPv1 版 本 在 RFC1508 文档 中 定义 , 是 最 初 的 版 本 , 但 是 该 版 本 具有 明显 的 缺陷 。RIPv2 
版 本 是 1998 年 在 RFC2453 文档 中 定义 ， 该 版 本 对 最 初 的 版 本 做 了 部 分 改进 ， 成 为 一 种 
常用 的 版 本 。 


2.1.1 RIP 的 基本 原理 


RIP 是 一 种 基于 距离 矢量 算法 的 协议 ， 距 离 矢 量 算 法 可 以 很 简单 地 概括 为 一 句 话 ， 
即 : 使 用 距离 矢量 路 由 器 泛 洪 自己 整个 路 由 表 给 邻居 路 由 器 。 因 此 ， 典 型 的 距离 矢量 路 
由 协议 都 会 有 一 些 通 用 的 属性 ， 如 定期 更 新 、 邻 居 、 广 播 更 新 和 泛 洪 路 由 表 等 。RIP 协 
议 有 以 下 几 个 通用 属性 。 

邻居 : 在 距离 矢量 路 由 协议 中 ， 可 以 理解 为 与 其 直接 相连 的 路 由 器 。 

周期 更 新 : 路 由 器 每 经 过 一 个 特定 的 时 间 周 期 后 ， 向 它 的 邻居 发 送 更 新 信息 ， 因 此 ， 
距离 矢量 路 由 协议 的 更 新 方式 也 被 称 为 “ 逐 跳 ”更 新 ,在 RFC2453 文档 中 把 RIP 的 更 新 
时 间 定 义 为 30s。 

Metric: 也 称 为 度量 值 ，RIP 协议 以 Hop“〔〈 跳 数 ) 作为 度量 值 ， 每 经 过 一 台 设 备 被 
视 为 1 跳 ，RIP 协议 的 最 大 值 被 限定 为 15 跳 。 而 16 跳 是 一 个 无 穷 大 的 值 ， 如 果 为 该 值 ， 
即 表示 路 由 不 可 达 。 

广播 更 新 : 路 由 器 向 目标 为 255.255.255.255 的 地 址 发 送 报 文 ， 网 络 中 所 有 设备 都 会 
监听 该 地 址 ，RIPv1l 默认 就 是 采用 广播 更 新 ,由 于 所 有 设备 收 到 该 报 文 以 后 都 需要 处 理 ， 
因此 该 方式 将 会 造成 较 大 的 负担 。 

组 播 更 新 : 路 由 器 向 目标 为 224.0.0.9 的 地 址 发 送 报 文 ， 网 络 中 只 有 监听 该 组 播 地 址 
的 设备 才能 够 接收 到 ，RIPv2 默认 采用 的 就 是 组 播 更 新 ， 该 方式 可 以 大 大 节省 设备 的 性 
能 开销 ， 不 需要 将 报 文 发 送 给 不 必要 的 设备 。 

泛 洪 路 由 表 : 路 由 器 将 从 邻居 学 习 到 的 路 由 放 进 自己 的 路 由 表 中 ， 然 后 将 路 由 表 所 
有 的 路 由 信息 再 通告 给 其 他 路 由 器 ， 直 到 整个 网 络 全 部 学 习 到 。 


2.1.2 RIP 的 定时 器 


根据 RFC2453，RIP 协议 一 共 定义 了 3 种 定时 器 ， 分 别 是 : 
。 ”更 新 定时 器 (Update Timer) 

。 ”老化 定时 器 (Age Timer) 

e ”垃圾 收集 定时 器 (Garbage-collect Timer) 
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更 新 定时 器 : 主要 用 于 触发 更 新 报 文 的 发 送 ， 若 定时 器 超时 ， 将 会 发 送 response 报 
文 ， 时 间 为 30s。 

老化 定时 器 : RIP 设备 如 果 在 老化 时 间 内 没有 收 到 邻居 发 送 过 来 的 response 报 文 ， 
则 认为 该 路 由 不 可 达 ， 时 间 为 180s。 超 时 后 ， 这 条 路 由 不 再 出 现在 路 由 表 中 ， 但 在 RIP 
数据 库 中 继续 存在 ， 并 启动 垃圾 收集 定时 器 。 

垃圾 收集 定时 器 : 如 果 在 垃圾 收集 时 间 内 仍然 没有 从 同一 邻居 收 到 该 条 不 可 达 路 由 
更 新 ， 则 该 路 由 将 从 RIP 数据 库 中 彻底 删除 ， 时 间 为 120s。 

RIP 的 更 新 信息 发 布 是 由 更 新 定时 器 控制 的 ， 默 认为 每 30s 发 送 一 次 ， 每 一 个 路 由 
表 项 对 应 两 个 定时 器 : 老化 定时 器 和 垃圾 收集 定时 器 。 当 学 到 一 条 路 由 并 添加 到 路 由 表 
中 时 ， 老 化 定时 器 启动 。 如 果 老 化 定时 器 超时 ， 设 备 仍 没 有 收 到 邻居 发 来 的 更 新 报 文 ， 
则 把 该 路 由 的 度量 值 置 为 16《〈 表 示 路 由 不 可 达 )， 并 启动 垃圾 收集 定时 器 。 如 果 垃 圾 收 
集 定时 器 超时 ， 设 备 仍 然 没 有 收 到 更 新 报 文 ， 则 删除 该 条 目 。 因 此 在 华为 VRP 平台, 一 
条 路 由 失效 以 后 直到 从 RIP 数据 库 中 清除 将 会 经 过 300s (180+120)。 前 180s， 路 由 出 现 
在 路 由 表 中 ， 转 发 数据 报 文 ， 但 在 后 1208， 路 由 仅 在 RIP 数据库 中 存在 ， 不 转发 数据 报 
文 ， 此 期 间 RIP 会 向 邻居 路 由 器 发 送 RIP 毒化 路 由 更 新 〈Metric 为 16 的 路 由 更 新 )， 让 
网 络 撤销 该 路 由 。 任 何 接收 到 该 毒化 路 由 的 RIP 路 由 器 ， 从 路 由 表 中 撤销 该 路 由 ， 并 在 
RIP 数据 库 中 为 该 路 由 启动 垃圾 收集 定时 器 ， 开 始 扩散 毒化 路 由 。 


建议 : 

可 以 根据 需要 修改 定时 器 的 值 ， 命 令 ，timers rip wpoate age garbage-collect, 但 是 修改 定 
时 器 时 ， 注 意 修改 的 值 不 能 过 小 或 过 大 ， 过 小 容易 导致 浪费 链 路 带宽 ， 过 大 会 影响 到 路 
由 的 收敛 速度 。 


2.1.3 ”距离 矢量 协议 的 问题 


距离 矢量 协议 有 时 被 称 为 “谣言 式 的 路 由 协议 ” 因为 所 有 的 路 由 信息 都 是 通过 邻 
居 路 由 器 传递 过 来 的 。 如 果 这 个 信息 是 真实 的 ， 当 然 万 事 大 吉 ， 但 如 果 这 个 信息 是 错误 
的 ， 该 设备 也 无 法 判断 其 真实 性 ， 将 会 给 网 络 带 来 比较 大 的 问题 。 比 如 某 条 路 由 已 经 失 
效 了 ， 但 是 其 他 路 由 器 的 路 由 表 中 还 存在 该 路 由 ， 那 么 很 有 可 能 这 条 路 由 被 其 他 的 路 由 
器 又 重新 通告 过 来 ， 而 该 设备 重新 放 进 路 由 表 。 接 着 ， 它 也 会 把 这 条 路 由 再 次 通告 给 其 
他 的 邻居 。 可 想 而 知 ， 一 旦 这 条 错误 路 由 被 泛 洪 到 所 有 的 路 由 器 ， 将 会 造成 大 的 路 由 黑 
洞 ， 最 严重 时 会 引起 路 由 环 路 的 问题 。 

RIP 协议 是 一 个 早期 开发 的 协议 ， 当 时 网 络 环境 还 是 相对 较 简 单 的 ， 并 没有 预计 到 
会 这 么 快 发 展 到 如 今 如 此 庞大 的 互联 网 ， 因 此 ， 这 种 协议 面临 的 另外 一 个 问题 就 是 可 扩 
展 性 的 问题 , RIP 受到 最 大 跳 数 的 限制 , 在 互联 网 中 仅 允 许 路 由 器 的 直径 不 能 超过 15 跳 ， 
否则 路 由 是 无 法 学 习 到 的 。 

此 外 ， 早 期 版 本 RIP 的 收敛 非 常 慢 ， 如 果 网 络 发 生 拓扑 的 变化 ， 也 必须 等 待 30s 才 
能 发 布 路 由 ， 同 时， 每 次 更 新 时 间 到 期 ，RIP 协议 将 会 发 布 整个 路 由 表 ， 并 不 能 够 像 其 
他 协议 只 发 布 更 新 后 的 路 由 表 ， 因 此 极 大 地 占用 了 链 路 带宽 。 

当然 ，RIP 协议 虽然 是 一 个 比较 早期 的 协议 ,不 适合 大 型 网 络 的 发 展 需 要 , 但 是 其 原理 
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简单 、 配 置 容易 ， 仍 然 适合 一 些小 型 公司 网 络 的 部 署 ， 目 前 有 少数 企业 仍然 在 使 用 它 。 


2.2 RIP 的 报 文 及 版 本 


RIP 协议 采用 UDP 传输 层 协议 ， 端 口号 为 520， 一 共有 两 种 报 文 类 型 : 请求 报 文 
(request) 和 响应 报 文 (response)。 

request 请 求 报 文 : 当 RIP 进程 启动 以 后 ， 路 由 器 会 向 外 发 送 请 求 报 文 ， 请 求 自身 没有 
的 路 由 ， 对 方 将 以 response 报 文 包含 整个 路 由 表 的 内 容 来 进行 响应 ， 可 以 加 快 路 由 的 学 习 。 

request 请 求 报 文 在 以 下 场景 下 发 送 : RIP 在 进程 初次 启动 后 ， 或 接口 初次 加 入 RIP 
进程 ， 或 RIP 接口 重 置 后 ， 都 会 触发 发 送 request 请 求 ， 收 到 RIP 请 求 后 ，RIP 邻居 会 立 
即 回应 response 报 文 。 

response 响应 报 文 : RIP 将 会 定期 地 发 送 该 报 文 ，RIP 的 路 由 信息 被 封装 在 该 报 文 
中 发 送 ， 每 隔 30s 发 送 一 次 。 


2.2.1 RIP 的 工作 过 程 
以 下 简 述 RIP 协议 的 工作 过 程 ，R1 与 R2 各 自 网 段 如 图 2-1 所 示 ， 工 作 过 程 如 下 。 


1.1.1.0/24 2.2.2.0/24 





12.1.1.1/24 12.1.1.2/24 


图 2-1 RIP 协议 工作 过 程 


(1) Rl1 启动 RIP 进程 ， 向 G0/0/0 接口 发 送 request 报 文 和 response 报 文 ，request 
报 文 用 来 向 邻居 请 求 路 由 ，response 报 文 用 于 向 邻居 通告 路 由 ， 通 告 的 路 由 中 包括 环 回 
接口 路 由 和 直 连 路 由 : 12.1.1.0/24 和 1.1.1.0/24， 且 metric 都 为 1。 

(2) R2 启动 RIP 进程 ， 向 G0/0/0 接口 同时 发 送 request 和 response 报 文 ， 也 将 直 连 
网 段 12.1.1.0/24 和 环 回路 由 2.2.2.0/24 通告 给 R1，metric 也 为 1。 

(3) R1 收 到 R2 的 response 报 文 后 对 比 自己 的 数据 库 ， 发 现 本 地 有 直 连 网 段 
12.1.1.0/24 的 路 由 ，R1 在 通告 给 R2 的 response 报 文中 ， 除 包含 其 他 路 由 外 ， 还 将 直 连 
路 由 12.1.1.0/24 的 跳 数 置 为 16 发 送出 去 ,通过 这 种 “毒化 ”方式 避免 R2 接收 该 路 由 而 
形成 环 路 。 同 理 ，R2 收 到 R1 的 response 报 文 后 ， 会 在 之 后 向 R1 通告 的 response 报 文 
中 携带 跳 数 为 16 的 直 连 路 由 〈12.1.1.0/24) 和 其 他 路 由 。 

(4) R1 和 R2 在 彼此 通告 的 response 报 文中 包含 其 他 路 由 《此 处 为 环 回路 由 ) 和 跳 
数 为 16 的 直 连 路 由 ， 整 个 过 程 持续 120s。 

(5) 120s 后 ，R1 和 R2 间 将 不 再 通告 16 跳 的 直 连 网 段 路 由 ， 仅 通告 环 回路 由 。 


2.2.2 ”RIPv1 的 报 文 格式 
RIPv1 报 文 由 两 个 部 分 组 成 :RIP 头 部 (Header) 和 RIP 路 由 表 项 (Route Entries) 
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图 2-2 所 示 为 RIPvl 的 报 文 格式 。 


7 15 31 
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图 2-2 RIPv1 的 报 文 格式 














RIP 头 部 是 指 RIP 报 文 的 前 32bit， 即 8bit 的 Command 字段 ，8bit 的 Version 字段 和 
16bit 的 Must be zero 字段 ， 这 些 字 段 都 是 用 二 进 制 数 0 来 表示 的 。 剩 下 的 部 分 就 是 RIP 
报 文中 的 路 由 表 项 ， 每 条 前 绥 一 个 表 项 ， 因 此 可 以 有 多 个 表 项 ， 定 义 如 下 。 

Command: 8bit， 标 识 报 文 的 类 型 ，1 表示 request 报 文 ，2 表示 response 报 文 。 

Version: 8bit，RIP 的 版 本 ，1 表示 RIPv1，2 表示 RIPv2。 

Must be zero: 16/32bit， 该 字段 永远 为 0。RIP 版 本 1 这 个 字段 分 为 两 个 部 分 , 第 1 
部 分 的 16bit 在 RIP 报 文 的 头 部 中 。 第 2 部 分 的 32bit 在 RIP 报 文 的 路 由 表 项 中 。 

Address family identifier: 16bit， 地 址 族 标识 字段 ， 用 于 支持 携带 不 同 协议 的 路 由 
信息 ， 每 个 项 都 有 地 址 族 标志 来 表明 使 用 的 地 址 类 型 ，IPv4 地 址 的 AFI 值 为 2。 

IP Address: 32bit， 网 络 前 级 ， 可 以 为 子 网 地 址 或 主机 地 址 。 

Metric: 32bit， 路 由 的 开销 值 。 对 于 request 报 文 ， 此 字段 为 16。 


2.2.3 RIPv2 的 报 文 格式 
RIPv2 的 报 文 格式 类 似 于 RIPv1， 但 相 比 RIPvl 增加 了 部 分 字段 ， 如 子 网 信息 、 下 
一 跳 、 路 由 标记 等 ， 具 体格 式 如 图 2-3 所 示 。 


7 153 31 
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图 2-3 RIPv2 的 报 文 格式 
















RIPv1 和 RIPv2 都 有 Must be zero 字段 , 这 些 字段 是 必须 为 0 的 字段 。 因此 , Must be 
zero 字段 也 称 为 零 域 。 如 果 有 人 恶意 自 改 了 其 中 的 一 些 字 段 ， 可 能 会 使 网 络 出 现 一 些 问 
题 。 为 了 保证 RIP 的 安全 性 ， 需 要 对 RIP 的 报 文 进行 有 效 性 的 检查 。 
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RIP 报 文 的 有 效 性 检查 一 共 分 为 两 种 :RIPv1 报 文 的 零 域 检查 和 RIP 更 新 报 文 的 源 
地 址 检查 。 

(1) RIPv1 报 文 的 零 域 检查 : 指 RIPv1l 在 接收 报 文 时 对 零 域 进行 检查 。 如 果 该 值 不 
为 0， 该 报 文 将 被 丢弃 ,在 RIP 进程 下 使 用 checkzero 命令 可 以 完成 此 操作 。 此 配置 针对 
RIPv2 是 无 效 的 。 

(2) RIP 更 新 报 文 的 源 地 址 检查 : 检查 发 送 报 文 的 接口 IP 地 址 与 接收 报 文 接口 的 人 P 
地 址 是 否 在 同一 网 段 。 如 果 不 在 同一 个 网 段 ， 那 么 报 文 将 被 丢弃 。 在 RIP 进程 下 使 用 
verify-source 命令 可 以 完成 此 操作 。 

RIPv2 与 RIPv1 不 同 的 报 文 字段 注释 

Router Tag: 16bit， 路 由 标记 字段 ， 用 于 将 外 部 路 由 引入 RIP 协议 中 时 进行 标记 ， 
默认 为 0。 

Subnet Mask: 32bit， 目 标 网 段 的 子 网 掩 码 ，RIPv2 为 无 类 路 由 协议 ， 传 递 路 由 时 可 
以 携带 子 网 掩 码 。 

Next Hop: 32bit， 到 达 目 标 网 段 的 下 一 跳 地 址 ， 如 果 是 0.0.0.0， 这 表示 发 布 此 路 由 
的 路 由 器 地 址 为 最 优 的 下 一 卡 。 

Authentication: 当 RIP 配置 认证 时 ，RIPv2 会 对 第 一 条 路 由 表 项 做 出 修改 ， 具 体 修 
改 如 下 : 将 Address Family Identity 字段 改 为 0XFFFF; Route Tag 字段 改 为 Authentication 
Type 字段 ; IP Address、Subnet Mask、Next Hop 和 Metric 会 变 为 口令 字段 。 如 果 使 用 明 
文 认 证 是 能 够 在 报 文中 看 到 密码 的 ， 如 果 使 用 的 是 MD5 认证 ， 后 面 的 卫 地 址 、 子 网 掩 
码 等 信息 由 hash 值 替 代 ， 无 法 看 到 。 

说 明 : 

RIP 报 文 使 用 UDP 传输 ， 每 个 UDP 报 文 最 大 传输 512Byte， 从 而 RIP 的 报 文 是 由 头 部 
(header) 和 路 由 表 项 (router entries) 组 成 的 ， 一 个 路 由 表 项 有 20Byte， 因 此 一 个 RIP 报 文 
总 共 能 包含 25 个 路 由 表 项 ， 也 就 是 最 多 传递 25 条 路 由 条 目 。 但 如 果 RIP 进程 中 配置 了 认 
证 ， 那 么 是 无 法 传递 25 条 路 由 ， 如 果 配 置 了 明文 认证 ， 每 个 报 文 最 多 传递 24 条 路 由 ， 
如 果 配 置 了 MD5 认证 ， 则 只 能 传递 23 条 路 由 。 


2.2.4 ”RIPv1 和 RIPv2 的 比较 


RIPv1 和 RIPv2 的 共同 点 

。 RIPv1 和 RIPv2 报 文 格式 一 致 ， 都 是 采用 UDP 封装 ， 并 且 监 听 520 端口 号 ( 源 
端口 和 目的 端的 端口 号 都 是 520)。 

。 报 文 类 型 一 样 ， 都 是 两 种 报 文 : request 和 response。 

e。 采用 的 度量 值 一 样 ， 都 使 用 Hop 作为 度量 值 ， 最 大 15 跳 ， 如 果 达 到 16 跳 ， 则 
认为 目标 不 可 达 。 

。 定时 器 是 一 致 的 。 

RIPv1 和 RIPv2 的 不 同 点 

。 ”RIPv1 采用 的 是 广播 更 新 报 文 ,， RIPv2 默认 采用 组 播 更 新 , 不 过 也 可 以 将 RIPv2 
更 改 为 使 用 广播 更 新 。 通 过 组 播 方式 替代 广播 方式 的 更 新 可 以 降低 设备 的 负担 ， 
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从 而 提高 了 效率 。 

。 RIPv1l 是 有 类 的 路 由 协议 ， 因 此 ， 传 递 路 由 时 不 能 携带 子 网 撼 码 ， 当 路 由 器 收 
到 路 由 后 ， 子 网 掩 码 是 采取 猜测 的 方式 获取 的 ， 以 至 于 路 由 表 存 在 错误 路 由 的 
可 能 性 。 而 RIPv2 是 无 类 的 路 由 协议 ， 路 由 传递 时 携带 子 网 掩 码 ， 而 RIPv2 不 
会 出 现 上 述 问题 。 

。 ”RIPv1 不 支持 VLSM、CIDR, 而 RIPv2 可 以 支持 ， 因 此 可 以 更 加 灵活 地 部 署 网 络 。 

。 ”RIPv1 无 法 关闭 自动 汇总 ， 且 不 支持 手动 汇总 ， 将 会 带 来 不 连续 子 网 的 问题 ， 该 
问题 将 在 后 面 章节 中 讨论 。 而 RIPv2 可 以 关闭 自动 汇总 , 并 且 能 够 在 网 络 的 任意 
地 方 进行 手动 汇总 ， 可 以 减少 路 由 表 的 大 小 ， 降 低 网 络 不 稳定 所 带 来 的 影响 。 

。 ”RIPv1 不 支持 路 由 标记 ， 而 RIPv2 支持 路 由 标记 。 通 过 设置 路 由 标记 可 以 为 来 
自 外 部 的 路 由 统一 实施 路 由 策略 ， 使 用 路 由 标记 可 以 有 效 地 防止 多 协议 之 间 相 
互 引 入 造成 的 环 路 问题 。 

。 ”RIPv1 报 文中 不 含 Next-hop 属性 , 而 RIPv2 支持 Next-hop 属性 , 该 属性 可 以 解 
决 RIP 的 次 优 路 径 问 题 ， 有 全 0 〈0.0.0.0) 和 非 全 0( 如 1.2.3.4) 的 两 种 形式 。 
如 果 Next-hop 字段 为 全 0 地址 ， 那 么 在 路 由 表 中 ， 到 达 该 目标 网 络 的 下 一 跳 地 
址 即 为 发 送 响应 报 文 的 源 瑟 地 址 , 到 达 该 目标 网 段 的 数据 包 将 会 发 往 该 接口 地 
址 。 如 果 Next-hop 字段 为 非 全 0 地 址 (多 出 现在 一 个 广播 多 址 网 络 中 )， 则 发 
往 目 标 网 段 的 数据 包 会 被 路 由 器 直接 发 往 这 个 非 全 0 的 接口 地 址 ， 因 为 这 个 地 
址 一 定 是 最 优 的 下 一 跳 〈 该 案例 将 在 后 面 详细 讨论 )。 

。 RIPv2 增加 了 对 认证 的 支持 , 可 以 提供 明文 和 MD5 两 种 方式 认证 , 增强 安全 性 ， 
而 RIPvl 不 支持 认证 。 


2.2.5 ”RIP 的 兼容 版 本 


为 了 更 好 地 支持 实际 环境 中 路 由 器 对 RIP 的 支持 ， 华 为 VRP 平台 还 具有 一 个 兼容 
版 本 ， 默 认 情况 下 启动 RIP 进程 后 ， 如 果 没 有 配置 RIP 版 本 ， 该 版 本 就 为 兼容 版 本 。 以 
下 是 RIP 兼容 版 本 、RIPv1、RIPv2 在 收 和 发 RIP 报 文 时 候 的 区 别 。 
。 ”如 果 配 置 为 兼容 版 本 ， 则 以 广播 形式 发 送 RIPv1 报 文 ， 接 收 广播 的 RIPvl 和 
RIPv2 报 文 。 

。 如 果 配 置 为 RIPvl 版 本 ， 则 只 广播 发 送 RIPv1 报 文 ， 接 收 广播 的 RIPvl 报 文 。 

。 ”如 果 配 置 为 RIPv2 版 本 ， 则 只 组 播发 送 RIPv2 报 文 ， 接 收 组 播 或 广播 的 RIPv2 
报 文 。 

。 ”如 果 配 置 为 RIPv2 版 本 ， 且 使 用 组 播 方式 (Multicast)， 则 发 送 和 接收 的 都 是 组 
播 RIPv2 报 文 。 

。 ”如 果 配 置 为 RIPv2 版 本 ， 且 使 用 广播 方式 〈Broadcast)， 则 以 广播 的 形式 发 送 
RIPv2 报 文 ， 接 收 RIPvV1 和 RIPv2 的 报 文 。 


说 明 : 
在 配置 RIP 时 ， 可 以 在 进程 中 或 者 接口 下 修改 RIP 的 版 本 ， 但 是 接口 下 的 配置 要 优 于 
进程 中 。 配 置 命令 : rip version { 1 |2 [broadcast | multicast ] } 。 
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2.2.6 ”RIPv1 路 由 收发 规则 


RIPv1 是 有 类 的 路 由 协议 ， 有 类 路 由 协议 的 最 大 特点 是 发 送 路 由 时 不 携带 子 网 掩 码 
信息 ， 而 路 由 表 中 每 条 路 由 条 目 都 必须 有 网 络 号 及 前 绥 长 度 (也 就 是 子 网 掩 码 位 数 )， 因 
此 ， 如 果 网 络 中 通过 RIPv1 来 传递 路 由 ， 那 么 路 由 条 目 将 如 何 呈 现在 路 由 表 中 ， 又 将 如 
何 得 到 子 网 掩 码 ， 这 是 有 类 路 由 协议 要 解决 的 最 大 的 问题 。 

华为 VRP 平台 针对 RIPv1 协议 定义 了 路 由 的 发 送 和 接收 规则 ， 具 体 规则 如 下 。 

路 由 发 送 规则 

将 要 发 送 的 前 级 网 段 和 出 接口 网 段 进行 匹配 ， 有 以 下 情况 。 

。 ”如 果 不 在 同一 主 网 ， 那 么 此 为 主 网 边界 ， 将 前 级 网 段 自动 汇总 为 有 类 网 络 号 ， 

并 且 发 送 前 缀 到 出 接口 。 
。 ”如 果 在 同一 主 网 ， 检 查 要 发 送 的 前 级 是 否 为 32 位 掩 码 。 
4 ”如 果 是 ， 发 送 32 位 前 缀 到 出 接口 。 
4 ”如果 不 是 ， 检 查 前 级 和 出 口 掩 码 是 否 相 同 。 
”如 果 不 同 ， 抑 制 发 送 或 者 汇总 为 主 网 络 号 。 
O ”如果 相 同 ， 没 有 边界 ， 发 送 正确 前 缀 到 出 口 。 

路 由 接收 规则 

当 路 由 器 从 某 个 接口 接收 到 一 个 前 缀 后 ， 有 以 下 情况 。 

。 ”如 果 发 现 是 主 网 络 号 ， 直 接 放 入 路 由 表 ， 掩 码 是 8/16/24。 

。 ”如 果 不 是 主 网 络 号 ， 将 收 到 的 目标 前 绥 与 接口 网 段 进行 匹配 。 

4 ”如 果 不 在 同一 主 网 ， 生 成 有 类 路 由 ， 掩 码 按 有 类 路 由 计算 ， 放 入 路 由 表 。 

4 ”如 果 在 同一 主 网 ， 使 用 该 接口 的 掩 码 与 路 由 前 缀 做 “与 ”运算 ， 然 后 检查 
该 前 缀 是 网 段 地 址 还 是 主机 地 址 。 

O ”如果 是 网 段 地 址 ， 生 成 路 由 ， 掩 码 等 于 自己 的 接口 掩 码 ， 放 入 路 由 表 。 

O ”如 果 不 是 网 段 地 址 ， 就 默认 是 主机 ， 生 成 32 位 主机 路 由 ， 放 入 路 由 表 。 


2.2.7 ”案例 研究 : 运行 不 同 版 本 能 否 正常 收发 路 由 


如 果 在 网 络 中 同时 运行 了 RIPv1、RIPv2 以 及 兼容 版 本 ， 如 图 2-4 所 示 ，R1 运行 了 
RIPv1 版 本 ，R2 运行 了 兼容 版 本 ，R3 运行 了 RIPV2， 那 么 R1、R2、R3 是 否 能 正常 学 习 
到 各 自 网 段 路 由 ? 


RIPv1 RIP RIPv2 


10.1.12.0/24 10.1.23.0/24 
Loopback0.1.1.1.0/24 Loopback0.2.2.2.0/24 Loopback0.3.3.3.0/24 


图 2-4 案例 研究 ， 运 行 不 同 的 RIP 版 本 是 否 能 正常 收发 路 由 





分 析 : 
由 于 R1 运 行 了 RIPv1 版 本 ， 那 么 将 会 广播 发 送 及 接收 v1 报 文 ,，R1 的 1.1.1.0 网 段 将 会 
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以 广播 形式 发 送出 去 。 而 R2 运行 的 是 兼容 版 本 ， 可 以 接收 v1 和 v2 的 报 文 ， 所 以 R2 是 可 
以 将 可 接收 到 1.1.1.0 网 段 路 由 ， 同 时 通过 广播 发 送 v1 的 报 文 ， 因 此 R1 能 够 接收 来 自 R2 
的 报 文 。 而 R3 运行 的 是 RIPv2 版 本 ， 缺 省 情况 下 是 以 组 播 的 形式 发 送 和 接收 v2 的 报 文 
因此 R2 也 能 够 接收 到 R3 的 报 文 ， 但 是 R3 无 法 接收 来 自 R2 的 广播 v1 报 文 。 所 以 ， 最 终 
RI1/R2/R3 的 路 由 表 中 分 别 为 : 
R1 的 路 由 表 中 有 R2 与 R3 的 环 回 口 路 由 ; 
R2 的 路 由 表 中 有 R1 与 R3 的 环 回 口 路 由 ; 
R3 的 路 由 表 中 没有 RI1 与 R2 的 环 回 口 路 由 。 


通过 查看 各 个 设备 的 路 由 表 来 验证 以 上 分 析 。 
<R1>display ip routing-table 

Route Flags: R-relay, D-download to fib 

Routing Tables: Public 


Destinations : 13 Routes : 13 
Destination/Mask ~ Proto Pre Cost Flags NextHop Interface 
1.1.1.0/24 Direct 0 0 D111l LoopBack0 
a2 birwt 0 0 Dol LoopBack0 
1.1.1.255/32 Direct 0 0 D 1270.0.! LoopBack0 
































10.1.12.0/24 Direct 0 0 有 10 GigabitEthernet0/0/0 
10.1.12.1/32 Direct 0 0 D 127.0.0.1 GigabitEthernet0/0/0 
10.1.12.255/32. Direct 0 0 D 127.00.l GigabitEthernet0/0/0 
10.1.23.0/24 RIP 100 1 D 10112.2 GigabitEthernet0/0/0 
127.0.0.0/8 . Direct 0 0 D 127.0.0.1 © InLoopBack0 
127.0.0.1/32 Direct 0 0 D12700.1 InLoopBack0 
127.255.255.233132 Direct 0 0 D 127.0.0.! InLoopBack0 
255.255.255.255/32 Direct 0 | 0 D. 1270.0.1 InLoopBack0 
<R2>display ip routing-table ， 
Route Flags: R-relay, D-download to fib 
Routing Tables: Public 
Destinations : 15 Routes : 15 
Proto Pre © Flags NextHop 
BD 2222 LoopBack0 
22.2.232 Direct. 0 0 D 12700.! LoopBack0 
2.2.2.255/32 Direct 0 0 . B 127.001 LoopBack0 
10.1.12.0/24 Direct 0 0 D (101122 GigabitEthernet0/0/0 
10.1.12.2/32. Direot 0 0 D12700.1 GigabitEthemet0/0/0 
10.1.12.255/32 Direct 0 0 D 11272001 GigabitEthernetO/0/0 
10.1.23.0/24 Direct 0 0 pb 101232 GigabitEthernet0/0/1 
10.1.23.2/32 Direct 0 0 DbD 12700,] GigabitEthernet0/0/1 
10,1.23255/32 Direct 0 0 DBD 1270.0.1 GigabitEthernet0/0/1 
127.0.0.0/8 ”Direct 0 0 DD 127.0.0.1 InLoopBack0 
127.0.0.1/32 Direct 0 0 D 900 InLoopBack0 
127.255,255.255/32 Direct 0 0 DB 127.0.0.1 InLoopBack0 
255.255,259.255/32 Direct 0 0 D 


,127.0.0.1 InLoopBack0 


<R3>display ip routing-table 
Route Flags: R-relay, D-download to fib 
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Routing Tables: Public 


Destinations : 10 Routes : 10 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
3.3.3.0/24 Direct 0 0 D 3 LoopBack0 
3.333/32. Diieet 0 0 D 127.0.0.1 LoopBack0 
3.3.3255/32. Direct 0 人 0 D 127.0.0.1 LoopBack0 
10.1.23.0/24 Direct 0 0 DO:233 GigabitEthernet0/0/0 
10.1.23.3/32 Direct 0 0 D 127.0.0.1 GigabitEthernet0/0/0 
10.1.23.255/32 Direct 0 0 D 127.0.0.1 GigabitEthernet0/0/0 
127.0.0.0/8 Direct 0 0 DEF InLoopBack0 
OA et DY2R00: InLoopBack0 
127.255.255.255/32 Direct 0 0 D 127.0.0.1 InLoopBack0 
255.255.255.255/32 Direct 0 0 D 127.0.0.l InLoopBack0 


注 蕊 : 

一 般 情况 下 ， 建 议 所 有 路 由 器 均 配 置 相同 的 版 本 ,以免 导 致 路 由 器 之 间 无 法 相互 学 习 
到 路 由 。 如 果 由 于 版 本 不 一 致 导致 无 法 学 习 路 由 ,可 以 在 进程 中 或 者 接口 下 通过 修改 版 本 
的 方式 来 解决 这 个 问题 ， 比 如 在 这 个 例子 中 ， 可 以 在 R3 的 G0/0/0 接口 下 配置 : rip version 1， 
接收 RIPv1 的 报 文 。 也 可 以 在 R2 的 G0/0/1 接口 配置 rip version 2 multicast， 发 送 RIPv2 的 
报 文 。 


2.2.8 ”案例 研究 : 运行 RIPv1 路 由 能 否 正 常 收 发 路 由 


前 面 提 到 了 RIPv1 协议 的 路 由 收发 规则 ， 下 面 结合 一 个 案例 来 看 看 使 用 RIPvl 协议 
能 否 正常 传递 路 由 ， 并 且 观 察 路 由 表 中 路 由 条 目 是 如 何 呈 现 的 ， 如 图 2-5 所 示 ，R1 和 
R2 都 运行 RIPv1, 两 台 设 备 直 连 网 段 为 10.1.1.0/24, R1 上 分 别 有 5 个 环 回 接口 被 通告 进 
RIP 进程 。 











RIPv] 





10.2.2.2/32 
10.3.3.3/24 
10.4.4.4/25 
192.168.1.1/32 
172.16.1.1/24 


图 2-5 ”案例 研究 ，RIPv1 的 路 由 接收 及 发 送 问题 


配置 RIPvl 以 后 ， 利 用 debugging 工具 查看 R1 所 发 送 的 路 由 : 

Nov 26 2015 09:09:13.175.1-05:13 fl RIP/7/DBG: 6: 13456: RIP 1: Sending response on interface GigabitEthernet0/0/0 
from 10.1.1.1 to 255.255.255.255 

Nov 26 2015 09:09:13.175.2-05:13 rl RIP/7/DBG: 6: 13476: Packet: Version 1, Cmd response, Length 124 

Nov 26 2015 09:09:13.175.3-05:13 rl RIP/7/DBG: 6: 13527: Dest 10.1.1.0, Cost 1 

Nov 26 2015 09:09:13.175.4-05:13 rl RIP/7/DBG: 6: 13527: Dest 10.2.2.2, Cost 1 

Nov 26 2015 09:09:13.175.5-05:13 rl RIP/7/DBG: 6: 13527: Dest 10.3.3.0, Cost 1 

Nov 26 2015 09:09:13.175.6-05:13 rl RIP/7/DBG: 6: 13527: Dest 10.0.0.0, Cost 1 

Nov 26 2015 09:09:13.175.7-05:13 rl RIP/7/DBG: 6: 13527: Dest 172.16.0.0, Cost 1 

Nov 26 2015 09:09:13.175.8-05:13 rl RIP/7T/DBG: 6: 13527: Dest 192.168.1.0, Cost I 


分 本 
通过 观察 发 现 ，R1 将 5 个 环 回 接口 的 网 段 以 及 直 连 网 段 都 从 G0/0/0 接口 发 送出 去 。 


TR De Se WI TI NA RA Rf I 
由 于 RIPv1 是 有 类 协议 ， 因 此 发 送 的 路 由 是 不 携带 子 网 掩 码 的 ， 只 包含 路 由 前 组 及 Cost 信 
息 ， 接 下 来 分 别 来 看 看 这 些 环 回 接口 的 网 段 是 如 何 发 送出 去 的 。 


10.2.2.2/32: 该 网 段 是 一 个 32 位 的 主机 路 由 ,并 且 与 接口 同一 主 网 , 根据 发 送 规则 ， 
这 条 路 由 将 被 直接 发 送 到 出 接口 ， 所 要 发 送 的 网 段 为 10.2.2.2。 

10.3.3.3/24: 该 网 段 接 口 为 同一 主 网 ， 并 且 掩 码 都 是 24 位 ， 因 此 被 认为 没有 边界 ， 
直接 发 送 到 出 接口 ， 所 要 发 送 的 网 段 为 10.3.3.0。 

10.4.4.4/25: 该 网 段 与 接口 为 同一 主 网 ， 但 是 掩 码 与 接口 不 同 ， 因 此 会 被 汇总 成 有 
类 的 网 络 并 且 送 到 出 接口 ， 所 要 发 送 的 网 段 为 10.0.0.0。 

192.168.1.1/32: 该 网 段 虽然 也 是 32 位 的 主机 ， 但 是 与 接口 不 在 同一 主 网 ， 那 么 此 
路 由 器 将 为 主 网 的 边界 设备 , 所 有 网 段 都 将 被 有 类 汇总 , 所 要 发 送 的 网 段 为 192.168.1.0。 

172.16.1.1/24: 该 网 段 与 接口 不 在 同一 主 网 ， 同 样 被 有 类 汇总 ， 所 要 发 送 的 网 段 为 
172.16.0.0。 

配置 以 后 观察 R2 的 路 由 表 ， 如 下 所 示 。 

[R2]display ip routing-table 

Route Flags: R-relay, D-download to fib 

Routing Tables: Public 


Destinations : 12 Routes :12 





10.1.1.0/24 Direct 0 0 I 10.1.1.2 GigabitEthernet0/0/0 


D 
10.1.1:2/32- Direct 0 0 D 127.0.0.1 GigabitEthernet0/0/0 
D 


10.1.1.255/32 Direct OM 127.0.0.1 GigabitEthemet0/0/0 







127.0.0.1 edi 
127.0.0.1 InLoopBack0 
127.0.0.1 InLoopBack0 


127.0.0.0/8 Direct 0 0 
127.0.0.1/32 Direct 0 0 
127.255.255.255/32 Direct 0 0 


口 口 口 如 器 








255.255.255.255/32 Direct 0 0 D 127.0.0.1 InLoopBack0 

分 研 : 

通过 观察 R2 从 G0/0/0 接口 接收 到 路 由 ， 可 以 看 到 路 由 都 能 够 接收 到 ， 并 且 每 条 路 由 
都 有 自然 掩 码 或 者 子 网 掩 码 ， 下 面 来 看 看 路 由 的 掩 码 是 如 何 获 取 的 。 


10.2.2.2/32: 从 Ri 收 到 的 网 段 为 10.2.2.2， 不 是 主 网 络 号 ， 且 与 接口 为 同一 主 网 ， 
再 判断 该 地 址 为 32 位 的 主机 地 址 ， 因 此 生成 32 位 的 主机 路 由 ， 在 路 由 表 中 ， 该 路 由 条 
目 为 10.2.2.2/32。 

10.3.3.3/24: 从 R1 收 到 的 网 段 为 10.3.3.0， 不 是 主 网 络 号 ， 且 与 接口 为 同一 主 网 ， 
再 用 接口 掩 码 做 “与 ”运算 ， 发 现 是 网 段 地 址 ， 那 么 将 R2 的 GO/0/0 接口 的 掩 码 给 予 该 
条 目 。 因 此 在 路 由 表 中 ， 该 路 由 条 目 为 10.3.3.0/24。 

10.4.4.4/25: 从 Rl 收 到 的 网 段 为 10.0.0.0， 是 主 网 络 号 ， 将 给 予 该 路 由 一 个 主 类 网 
络 掩 码 , 由 于 是 A 类 地 址 , 掩 码 长 度 为 8 位 , 因此 在 路 由 表 中 , 该 路 由 条 目 为 10.0.0.0/8。 
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192.168.1.1/32: 从 R1 收 到 的 网 段 为 192.168.1.0， 是 主 网 络 号 ， 因 此 给 予 一 个 主 类 
网 络 掩 码 ， 由 于 是 C 类 地 址 ， 掩 码 长 度 为 24 位 ， 因 此 在 路 由 表 中 ， 该 路 由 条 目 为 
192.168.1.0/24。 
172.16.1.1/24: 从 R1 收 到 的 网 段 为 172.16.0.0， 是 主 网 络 号 ， 因 此 给 予 一 个 主 类 网 
络 掩 码 , 由 于 是 B 类 地 址 , 掩 码 长 度 为 16, 因此 在 路 由 表 中 , 该 路 由 条 目 为 172.16.0.0/16。 


2.2.9 ”案例 研究 : 运行 RIPv1 传递 路 由 的 问题 


如 图 2-6 所 示 ，R1/R2/R3 分 别 运行 RIPv1， 路 由 器 之 间 的 直 连 接口 采用 一 个 C 类 网 
段 地 址 : 192.168.1.0/24, R1 接口 为 192.168.1.1/24,R2 的 G0/0/0 接 口 地 址 为 192.168.1.2/27， 
G0/0/1 接口 地 址 为 192.168.1.33/27，R3 的 接口 地 址 为 192.168.1.34/27， 分 别 将 接口 通告 
进 RIPv1 进程 。 


192.168.1.1/24 192.168.1.2/27 


2-6 运行 RIPvl 的 路 由 传递 问题 





问题 描述 如 下 。 

。 Rl 和 R3 的 路 由 表 是 否 能 够 接收 到 各 自 直 连 网 段 路 由 ? 

。 Rl 能 否 与 R3 正常 通信 ? 

问题 一 分 析 : 由 于 R2 分 别 与 Rl1 和 R3 相连 ， 并 且 在 该 网 络 中 只 有 直 连 网 段 ， 没 有 
其 他 地 址 ，R2 的 路 由 表 中 仅仅 只 有 两 条 直 连 路 由 ， 分 别 为 192.168.1.0/27 和 
192.168.1.32/27。 而 R1 和 R3 的 路 由 表 都 是 通过 R2 传递 过 来 的 ，R2 会 将 直 连 网 段 
192.168.1.32/27 传递 给 R1， 将 直 连 网 段 192.168.1.0/27 传递 给 R3。 注 意 ， 由 于 运行 的 是 
RIPv1， 因 此 路 由 传递 的 时 候 不 携带 子 网 掩 码 ， 接 下 来 分 别 观察 一 下 R1 和 R3 能 否 接收 
到 路 由 。 

R2 将 192.168.1.32 网 段 不 带子 网 掩 码 从 G0/0/0 接口 发 送出 去 ， 根 据 发 送 规则 判断 ， 
该 网 段 与 接口 为 同一 主 网 , 且 掩 码 也 是 一 致 的 , 因此 能 够 发 送出 去 。R1 接收 到 路 由 以 后 ， 
根据 接收 规则 判断 ， 该 网 段 不 是 主 网 络 号 ， 但 是 与 接收 的 接口 为 同一 主 网 ， 经 过 与 接口 
的 掩 码 做 “与 ”运算 ， 发 现 该 地 址 不 是 一 个 网 段 地 址 ， 那 么 R1 会 把 该 地 址 当 作 一 个 主 
机 地 址 放 进 路 由 表 , 给 予 一 个 32 位 的 掩 码 , 最 终 R1 的 路 由 表 中 条 目 为 192.168.1.32/32。 

R2 将 192.168.1.0 网 段 不 带子 网 掩 码 从 G0/0/1 接口 发 送出 去 ， 根 据 发 送 规 则 判断 ， 
该 网 段 与 接口 为 同一 主 网 ， 且 掩 码 也 是 一 致 的 ， 因 此 能 够 发 送出 去 。R3 接收 到 路 由 以 后 ， 
根据 接收 规则 判断 ， 该 网 段 是 主 网 络 号 ， 将 直接 给 予 该 条 目 一 个 有 类 的 网 络 掩 码 ， 由 于 
是 C 类 地 址 ， 掩 码 为 24 位 ， 最 终 R3 的 路 由 表 中 条 目 为 192.168.1.0/24。 

查看 R1 和 R3 的 路 由 表 : 


<R1>display ip routing-table 
Route Flags: R-relay, D-download to fib 
Routing Tables: Public 
Destinations : 8 Routes : 8 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
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121.0.0.0/8 Direct 0 0 D 12n0.0.1 JInLoopBack0 
127.0.0.1/32 Direct 0 0 D127001 InLoopBack0 
127.255.255.255/32 Direct 0 0 BD. 127.0.0:1 InLoopBack0 
192.168.1.0/24 Direct 0 0 DD 192168.11 Sioa 0 
0 0 D 7001 





192.168.1.1/32 Direct 





192.168.1.255/32 Direct 0 0 D “所 200] et 
255.255.295.255/32. Direct 0 0 D BOQI ‘InLoopBack0 
<R3>display ip routing-table 


Route Flags: R-relay, D-download to fib 
Routing Tables: Public 





Destinations : 8 Routes ;8 
Destination/Mask Proto Pre Cost Flags NextHop | Interface 
127.0.0.0/8 Direct 0 0 D 129.0.0.1 InLoopBack0 
127.0.0,1/32 Direct 0 0 “站 12700.1 “LoopBack0 
127.255.255.255/32 Direct 0 0 DBD 12700.1 InLoopBack0 
192.168.1.32/27 Direct 0 0 D 192.168.1.34 cosbiier adi OA 
192.168.1.34/32 Direct 0 0 D 127001 GigabitEthernet0/0/0 
192.168.1.63/32 Direct 0 0 0 127.0.0.1 GigabitEthernet0/0/0 ， 
255.255.255.255/32 Direct 0， 0 127.0.0.1 JInLoopBack0 


问题 二 分 析 : 从 上 述 分 析 过 程 可 以 看 出 ， R1 和 R3 都 能 够 接收 到 各 自 的 网 段 路 由 ， 
但 是 R1 和 R3 车 想 互相 访问 各 自 的 接口 地 址 ， 看 看 能 否 正常 匹配 到 路 由 。 

Rl 访问 192.168.1.34， 查 找 路 由 表 ， 发 现 从 R2 学 习 的 192.168.1.32/32 是 无 法 匹配 
的 , 这 是 一 个 主机 地 址 。 那么 R2 是 否 就 会 将 数据 包 丢 弃 掉 呢 ? 实际 是 不 会 的 , 通过 “与 ” 
运算 计算 出 目标 地 址 与 自己 的 接口 为 同一 主 网 ， 最 终 R1 将 会 匹配 到 路 由 表 中 直 连 网 段 
192.168.1.0/24， 数 据 包 可 以 发 送出 去 。 

而 访问 直 连 网 段 ， 需 要 通过 ARP 获取 到 对 方 的 MAC 地 址 与 IP 地 址 的 映射 信息 ， 
因此 R1 将 会 广播 一 个 ARP 请 求 ， 而 请 求 的 地 址 为 R3 的 接口 地 址 : 192.168.1.34。 该 请 
求 信息 被 R2 收 到 ， 关 键 是 R2 收 到 以 后 能 不 能 响应 该 请 求 ,， 这 里 需要 注意 的 是 , 该 ARP 
请 求 报 文中 需要 请 求 的 IP 地 址 并 不 是 R2 自己 的 接口 地 址 ， 而 是 R3 的 物理 接口 地 址 。 
华为 VRP 平台 接口 默认 未 启用 arp-proxy (代理 ARP) 功能 , 将 会 导致 R2 直接 丢弃 掉 该 
报 文 ， 最终 数据 包 是 无 法 PING 通 的 。 


在 Rl 上 PING 192.168.1.34， 发 现 是 无 法 PING 通 的 。 
<R1>ping 192.168.1.34 
PING 192.168.1.34: 56 ”data bytes, press CTRL_C to break 
Request time out 
Request time out 
Request time out 
Request time out 
Request time out 
--- 192.168.1.34 ping statistics --- 
5 packet(s) transmitted 
0 packet(s) received 
100.00% packet loss 
查看 R1 的 ARP 信息 ， 也 无 法 看 到 192.168.1.34 的 映射 信息 。 
<R1l>display arp 
IP ADDRESS MAC ADDRESS EXPIRE(M) TYPE ~ INTERFACE VPN-INSTANCE 
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VLAN/CEVLAN PVC 
192.168.1.1 00e0-fc5f-771e 工 GEO/0/0 
Total:1 Dynamic:0 Static:0 Interface:1 


开启 R2 的 代理 ARP。 
interface GigabitEthernet0/0/0 
ip address 192.168.1.2 255.255.255.224 
arp-proxy enable 
在 Rl 上 面 再 次 PING 该 地 址 ， 发 现 可 以 PING 通 。 
<Rl>ping 192.168.1.34 
PING 192.168.1.34: 56 data bytes, press CTRL C to break 
Requesttime out 
Request time out 
Reply from 192.168.1.34: bytes=56 Sequence=3 ttl=254 time=20 ms 
Reply from 192.168.1.34: bytes=56 Sequence=4 ttl=254 time=20 ms 
Reply from 192.168,1.34; bytes=56 Sequence=5 ttl=254 time=20 ms 
--- 192.168.1.34 ping statistics --- 
5 packet(s) transmitted 
3 packet(s) received 
40.00% packet loss 
round-trip min/avg/max = 20/20/20 ms 


查看 Rl1 的 ARP 表 ， 可 以 看 到 接口 的 映射 信息 ， 实 际 上 与 R2 的 接口 一 致 。 


<R1>display arp 

IP ADDRESS MAC ADDRESS EXPIRE(M) TYPE INTERFACE VPN-INSTANCE 
VLAN/CEVLAN PVC 

192.168.1.1 00e0-fesf-771e I- GEO0/0/0 » 

192.168.1.34 00e0-fc20-7909 19 D-0 GE0/0/0 

192.168.1.2 00e0-fc20-7909 .19 D-0 GE000 

Total:3 Dynamic:2 Static:0 Interface:1 

由 于 R3 的 路 由 表 能 够 正常 地 匹配 到 源 地 址 192.168.1.1, 因此 可 以 正常 地 响应 ICMP 

消息 。 

处 结 : 


本 案例 介绍 了 RIPv1 协议 通告 路 由 的 特点 ， 在 某 些 方面 RIPv1 的 使 用 可 能 比 RIPv2 更 加 
困难 ， 归 根 到 底 还 是 因为 有 类 路 由 协议 不 能 携带 子 网 掩 码 ， 而 路 由 器 收 到 路 由 后 ， 掩 码 
需要 通过 猜测 的 方式 来 获取 ， 这 样 就 会 造成 路 由 表 的 错误 ， 特 别 是 本 例 中 R1 的 路 由 表 ， 
接收 到 一 条 多 余 的 路 由 ，R1 根本 无 法 匹配 到 该 路 由 。 因 此 ， 建 议 在 部 署 网 络 的 时 候 尽 量 
选择 RIPv2。 


2.3 ”RIP 的 防 环 机 制 


距离 矢量 路 由 协议 面临 最 大 的 问题 就 是 路 由 环 路 ， 如 图 2-7 所 示 ，R3 的 100.1.1.0/ 
24 网 段 出 现 故障 ， 会 将 该 网 络 标记 为 不 可 达 ， 并 在 下 一 更 新 周期 通知 R2。 但 是 意 想 不 
到 的 是 ， 在 R3 发 送 更 新 给 R2 之 前 ，R2 先 把 更 新 报 文 发 送 给 了 R3， 在 没有 水 平分 割 的 
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情况 下 ，R3 重新 从 R2 学 习 到 该 路 由 ， 并 且 下 一 跳 地 址 为 R2， 跳 数 变 为 2 跳 。 而 R3 的 
更 新 周期 到 期 后 ， 又 将 该 路 由 发 送 给 R2，R2 学 习 到 的 路 由 将 路 由 表 的 跳 数 由 之 前 的 1 
跳 改 为 3 跳 。 如 此 重复 ， 路 由 表 中 的 跳 数 将 会 不 断 增 加 ， 直 到 最 大 。 假 设 R2 有 个 数据 
包 需 要 发 往 100.1.1.0/24 网 段 ， 那 么 将 会 在 R2 和 R3 之 间 不 停 地 转发 ， 形 成 环 路 。 


a 


DD 100.1.1.0/24 
10.1.12.1/24 10.1.12.2/24 六 RR ea 


一 一 
100.1.0.0/24 Metric=2 


Destination/Mask © Nexthop metric 民 
100.1.0.0/24 10.1.23.2 2 量 
图 2-7 RIP 协议 的 环 路 现象 


RIP 协议 本 身 的 算法 不 具备 解决 环 路 的 能 力 ， 但 是 RIP 协议 中 提供 了 4 种 机 制 来 解 
决 : 水 平分 割 、 毒 性 逆转 、 最 大 计数 器 、 触 发 更 新 。 


2.3.1 水 平分 割 


水 平分 割 指 的 是 一 条 路 由 从 某 一 个 接口 学 习 到 ， 不 会 从 该 接口 再 次 转发 出 去 ， 这 样 
既 可 以 减少 链 路 带宽 的 浪费 ， 同 时 也 可 以 避免 环 路 。 如 图 2-7 所 示 ，100.1.1.0 网 段 原本 
是 R3 通告 给 R2 的 ， 而 R2 也 只 能 通过 R3 到 达 该 网 段 ， 但 是 当 该 网 段 失 效 以 后 ，R2 实 
际 通告 了 一 条 错误 的 信息 给 R3， 而 且 这 条 信息 也 是 没有 意义 的 。 因 此 ， 水 平分 割 机 制 阻 
止 了 R2 从 收 到 路 由 的 源 接口 再 次 发 送出 去 ， 避 免 R3 收 到 一 条 错误 信息 而 形成 环 路 。 
华为 VRP 平台 下 ，RIP 的 水 平分 割 需要 注意 以 下 几 点 。 
e 在 广播 型 BMA (Broadcast Multiple Access) 网 络 中 ， 接 口 默认 都 是 启用 水 平分 
割 的 。 
e 在 非 广 播 型 NBMA (Non-Broadcast Multiple Access) 网 络 中 ， 如 帧 中 继 或 X.25 
的 网 络 中 ， 接 口 默 认 是 关闭 水 平分 割 的 。 


注意 : 

在 广播 多 址 网 络 中 ,假如 是 一 个 Hub-Spoke 结构 网 络 ， 使 用 单 播 方式 互相 通告 路 由 时 ， 
需要 注意 两 个 Spoke 之 间 的 路 由 学 习 ， 由 于 都 是 通过 Hub 点 学 习 的 ,但 是 在 广播 多 址 网 络 
下 ， 水 平分 割 默认 开启 ， 会 导致 路 由 学 习 不 到 ， 此 时 需要 关闭 水 平分 割 ， 可 以 通过 在 接 
口 下 配置 命令 undo rip split-horizon 关闭 水 平分 割 。 


2.3.2 ”毒性 逆转 


毒性 逆转 与 水 平分 割 正 好 相反 ， 水 平分 割 不 从 原 接收 路 由 接口 发 送出 去 ， 毒 性 逆转 
仍然 会 将 路 由 发 送出 去 ， 但 是 此 路 由 将 会 是 一 条 带 有 “ 毒 ” 的 路 由 ， 该 路 由 被 置 为 16 
跳 ， 是 一 条 不 可 达 的 路 由 。 目 的 也 是 为 了 告诉 对 方 ， 该 路 由 从 本 设备 发 出 是 无 法 到 达 目 
的 地 址 的 。 利 用 该 方式 也 能 够 清除 对 方 路 由 表 中 无 用 的 路 由 。 如 图 2-7 所 示 ， 如 果 毒 性 
逆转 开启 ， 那 么 R2 仍然 会 将 100.1.1.0 网 段 通告 出 去 ， 只 不 过 该 路 由 的 跳 数 为 16， 这 样 
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R3 从 R2 收 到 的 就 是 一 个 16 跳 的 路 由 ， 避 免 了 环 路 产生 。 


说 明 : 
缺 省 情况 下 ， 毒 性 逆转 都 是 禁用 的 ， 如 果 同 时 开启 毒性 逆转 和 水 平分 割 ， 则 只 使 用 毒 
性 弟 转 功能 ， 参 考 命令 rip poisonrreverse。 


2.3.3 ”最 大 计数 器 


最 大 计数 器 指 的 就 是 RIP 的 跳 数 最 大 设计 为 15 跳 ， 如 果 到 达 16 跳 则 表示 路 由 不 可 
达 ， 如 图 2-7 所 示 ， 当 R2 和 R3 之 间 由 于 相互 收 到 各 自发 送 的 路 由 ， 跳 数 将 一 直 往 上 印 
加 ， 如 果 没 有 上 限 ， 将 会 造成 数据 包 无 限制 地 在 两 个 设备 间 传 递 ( 当 然 IP 层 TTL 功能 
可 以 解决 这 个 问题 ， 最 大 255)，RIP 协议 最 多 传递 15 跳 ， 也 就 是 说 即使 有 环 路 ， 到 达 
16 跳 就 丢弃 报 文 。 

在 网 络 中 ， 跳 数 为 16 的 路 由 也 被 称 为 毒化 路 由 ， 如 果 设 备 收 到 该 路 由 ， 应 该 立刻 
从 路 由 表 中 清除 该 路 由 。 


2.3.4 触发 更 新 


触发 更 新 指 的 是 路 由 表 中 的 某 条 路 由 发 生变 化 时 《如 度量 值 变 好 或 者 变 坏 、 学 习 到 
或 删除 了 某 条 路 由 等 )， 路 由 器 会 立刻 发 送 更 新 报 文 ， 不 等 RIP 定时 器 超时 。 这 样 做 虽 
然 不 能 解决 路 由 环 路 ， 但 是 可 以 有 效 地 避免 路 由 环 路 的 产生 。 而 且 当 网 络 的 拓扑 发 生变 
化 后 ， 还 可 以 加 快 网 络 的 收敛 速度 ， 从 而 减少 了 处 理 时 间 上 对 网 络 带 宽 的 影响 。 

触发 更 新 机 制 的 方式 可 以 分 为 以 下 两 种 。 

(1) 当 路 由 信息 发 生变 化 时 ， 立 刻 向 邻居 路 由 器 发 送 更 新 报 文 ， 通 知 变化 的 路 由 
信息 。 
(2) 当 路 由 的 下 一 跳 不 可 达 时 ， 立 刻 会 把 此 路 由 的 度量 值 标 记 为 16 跳 ， 并 通告 给 
邻居 。 

通常 情况 下 ，RIP 协议 每 30s 会 产生 一 个 更 新 报 文 。 如 果 在 快速 以 太 网 上 ， 这 也 许 
并 不 会 对 整个 网 络 产生 什么 影响 。 但 是 ， 如 果 在 低速 的 串 行 链 路 上 ， 周 期 性 地 发 送 更 新 
报 文 只 会 造成 网 络 更 加 拥堵 。 为 解决 这 种 情况 ， 就 需要 配置 触发 更 新 机 制 来 消除 RIP 的 
周期 性 更 新 。 


2.4 ”RIP 的 高 级 特性 


2.4.1 silent—interface 和 peer ip—address 


silent-interface 也 称 为 静默 接口 ， 主 要 用 来 抑制 该 接口 发 送 RIP 报 文 , 但 是 不 会 影响 
报 文 的 接收 。 通 常情 况 下 用 作 与 其 他 路 由 协议 相连 或 者 是 环 回 的 接口 ， 此 接口 没有 必要 
再 向 外 发 送 RIP 报 文 ， 因 此 可 以 配置 静默 接口 来 减少 链 路 带宽 的 浪费 。 

peer ip-address 用 来 指定 向 某 一 个 邻居 设备 发 送 更 新 , 通常 情况 下 , 管理 员 为 了 减少 
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网 络 中 RIP 报 文 泛 洪 的 范围 ， 可 以 将 其 和 Silent-interface 联合 使 用 ， 来 实现 RIP 的 单 播 
更 新 ， 起 到 优化 作用 。 
说 明 : 
除了 通过 silent-interface 阻止 报 文 的 发 送 ， 还 可 以 利用 undo rip output 来 实现 这 一 目的 ， 
该 命令 用 来 阻止 该 接口 发 送 RIP 报 文 ,但 是 其 优先 级 不 如 silent-interface, 也 可 以 利用 undo rip 
input 来 实现 对 报 文 的 接收 。 


2.4.2 metricin 和 metricout 


在 网 络 中 ， 如 果 有 多 条 路 径 到 达 同 一 目标 ，RIP 将 会 根据 跳 数 来 决定 优选 路 由 ， 
可 能 优选 的 路 径 达 到 目标 网 络 的 跳 数 较 少 ， 但 是 带宽 非常 低 。 而 另外 的 路 径 虽 然 
跳 数 较 多 ， 但 是 带宽 非常 高 ， 而 RIP 无 法 根据 带宽 来 计算 ， 这 样 将 会 导致 次 优 路 
径 的 产生 。RIP 提供 了 metricin 和 metricout 工具 来 修改 度量 值 ， 从 而 影响 路 由 器 的 
选 路 。 

rip metricin: 当 接 收 到 一 条 路 由 时 ，RIP 将 接口 设置 的 度量 值 附 加 到 该 路 由 上 ， 再 
加 入 路 由 表 中 。 例 如 : 一 条 路 由 携带 的 度量 值 为 3， 在 接口 上 附加 了 一 个 度量 值 2， 那 么 
总 共 相 加 就 为 5。 

配置 命令 : 

rip metricin { value | { acl-number | acl-name acl-name | ip-prefix ip-prefix-name } valuel } 

rip metricout: 当 发 布 一 条 路 由 时 ， 发 送 度量 值 会 在 发 布 该 路 由 之 前 附加 在 这 条 路 由 
上 。 因 此 ， 增 加 一 个 接口 的 发 送 度 量 值 ， 该 接口 发 送 的 RIP 路 由 权 值 也 会 相应 增加 ， 但 
路 由 表 中 的 度量 值 不 会 发 生 改变 。 例 如 ; 一 条 路 由 携带 的 度量 值 为 2， 而 接口 附加 的 度 
量 值 为 2， 那 么 发 送出 去 的 时 候 度 量 值 为 4。 

配置 命令 : 


rip metricout { value | { acl-number | acl-name acl-name | ip-prefix ip-prefix-name } valuel } 

浊 尝 : 

在 配置 附加 度量 值 时 ， 要 注意 网 络 拓扑 ，RIP 最 大 的 网 络 直径 是 15 跳 ， 因 此 值 不 能 大 
于 15， 和 否则 将 会 影响 其 他 路 由 器 无 法 学 习 到 路 由 。 


2.4.3 RIPv2 的 认证 


RIPv2 支持 两 种 认证 , 分别 是 明文 认证 和 MD5 认证 , 明文 认证 是 指 密码 在 网 络 中 是 
以 明文 形式 传输 的 , 通过 报 文 分 析 工 具 可 以 很 轻易 地 获取 明文 密码 。MD5 认证 是 指 密码 
在 网 络 上 以 一 个 128bit 的 散 列 值 传 输 ， 但 是 该 值 是 不 可 逆 的 ， 用 户 即 使 截取 到 数据 包 ， 
也 无 法 获取 到 其 中 的 密码 。 针 对 MD5 认证 ， 华 为 除了 可 以 使 用 传统 的 MD5 加 密 方式 ， 
还 可 以 使 用 它 自己 私有 的 加 密 方 式 。 

在 华为 VRP 平 台 上 , 针对 明文 认证 只 能 是 基于 链 路 的 这 一 情况 , 只 需要 在 其 接口 下 
使 用 命令 rip authentication-mode simple cipher password 即 可 完成 对 链 路 的 明文 认证 。 

针对 MD5 认证 ， 既 可 以 配置 基于 链 路 的 认证 ， 也 可 以 配置 基于 密 钥 链 的 认证 。 

基于 链 路 的 认证 ， 可 以 使 用 基于 MD5 的 以 下 两 种 加 密 方 式 。 
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e。 输入 参数 nonstandard, 使 用 基于 IETF 国际 标准 的 MD5 加 密 方式 。 参考 命 令 为 
rip authentication-mode mds nonstandard password key-id,。 

。 输入 参数 usual, 使 用 基于 华为 私有 的 MD5 加 密 方 式 。 如果 使 用 了 该 加 密 模 式 ， 
则 无 法 使 用 基于 密 钥 链 的 认证 。 参 考 命令 为 rip authentication-mode md5 usual 
password。 

企业 在 使 用 RIP 认证 的 时 候 ， 出 于 安全 考虑 ， 有 可 能 需要 定期 地 修改 认证 密码 ， 这 

种 情况 下 ， 无 论 是 使 用 MD5 认证 的 哪 一 种 方式 ， 在 更 换 密 钥 的 过 程 中 ， 都 会 导致 RIP 
的 工作 中 断 ， 影 响 公司 正常 的 业务 流程 。 因 此 ， 在 有 这 样 需求 的 企业 网 中 部 署 RIP 认证 
时 ， 应 该 使 用 密 钥 链 的 认证 方式 ， 使 用 这 种 方式 可 以 把 更 换 RIP 认证 密码 对 企业 业务 的 
影响 降 到 最 低 。 

密 钥 链 (Keychain) 通过 定期 动态 更 改 认 证 算法 和 密 钥 的 方法 ， 保 证 协议 报 文 传输 

的 安全 性 ， 同 时 能 减少 人 工 更 改 算法 和 密 钥 的 工作 量 。Keychain 认证 算法 的 动态 切换 是 
通过 key-id 来 实现 的 , 每 个 Keychain 由 多 个 key 组 成 , 每 个 key-id 需要 对 应 配置 一 个 认 
证 算法 ， 不 同 的 key 在 不 同时 间 段 活跃 ， 实 现 动 态 切 换 认证 算法 。 

Keychain 有 两 种 时 间 生 效 的 模式 , 分 别 是 绝对 时 间 生 效 (absolute〉 和 周期 形式 生效 

(periodic)， 它 们 的 区 别 如 下 。 

。 ”absolute: 绝对 时 间 生 效 ， 不 会 周期 性 地 生效 。 指 key-id 在 一 个 发 送 时 间 段 内 只 
生效 一 次 ， 超 过 这 个 时 间 段 则 永远 不 会 再 生效 。 

。 periodic: 在 一 个 时 间 段 内 周期 性 地 生效 ， 如 果 超 过 该 时 间 段 ， 则 在 下 一 个 周期 
的 该 时 间 段 内 生效 。 

这 里 需要 注意 的 是 ,key-id 的 发 送 时 间 模 式 一 定 要 和 Keychain 配置 的 时 间 模 式 一 样 ， 

示例 如 下 。 

Keychain 模式 为 absolute， 则 key-id 的 发 生 模 式 也 必须 为 utc。 

[Huawei] keychain huaweil mode absolute 


[Huawei-keychain] key-id 1 
[Huawei-keychain-keyid-1] send-time utc 14:52 2013-10-1 to 14:52 2020-10-1 


Keychain 模式 为 periodic 中 的 daily， 则 key-id 的 发 生 模 式 也 必须 为 i 当然 可 以 
以 日 (daily) 的 方式 周期 性 生效 , 还 可 以 以 星期 (weekly)、 月 份 (monthly) 和 年 份 (yearly) 
方式 周期 性 生效 ， 实 例如 下 。 

[Huawei] keychain huawei2 mode periodic daily 

[Huawei-keychain] key-id 1 

[Huawei-keychain-keyid-1] send-time daily 14:52 to 18:10 

Keychain 的 配置 参考 命令 如 下 。 

用 algorithm 命令 来 配置 key-id 的 认证 算法 。 

4 用 key-string 命令 来 配置 key-id 的 密 铀 。 

9 用 send-time 命令 来 配置 key-id 的 发 送 时 间 。 

9 用 receive-time 命 令 来 配置 key-id 的 接收 时 间 。 


注意 ; 
4 一 个 Keychain 中 最 多 配置 64 个 key-id， 但 同时 只 能 有 一 个 发 送 key-id 生效 。 
9 华为 的 设备 中 ， 如 key-id 中 没有 配置 发 送 时 间 ， 那 么 该 key-id 是 不 会 生效 的 。 
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4 为 了 避免 各 个 key 间隔 时 间 内 没有 活跃 的 key 对 协议 报 文 进行 认证 和 加 密 ， 建 
议 配置 key 时 ， 通 过 命令 default send-key-id 指定 其 中 一 个 为 缺 省 的 发 送 key。 
4 配置 key 的 发 送 和 接收 时 间 时 ，key 的 时 间 模 式 必须 和 创建 Keychain 时 的 模式 
一 至 


RIPv2 验证 报 文 的 格式 和 一 般 的 RIP 也 有 些 不 同 。RIPv2 使 用 第 一 个 表 项 作为 认 
证 项 ， 并 且 把 AFI (Address Family Identifier) 位 标记 为 0xFFFF 作为 标识 。 如 表 2-1 
和 表 2-2 所 示 。 


表 2-1 RIP 验证 报 文 格式 
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Authentication type 





Authentication (16 octets) 


表 2-2 RIP 验证 报 文 格式 详解 
人 请 六 


标识 报 文 的 类 型 : 
Command 1 表示 request 报 文 ; 
RIP 的 版 本 : 
Version 8bit 1 表示 RIPv1; 
RIPv2 中 只 有 RIP 头 中 有 该 字段 
OxFFFF | ”16bit ” | 认证 项 标识 , 表示 整个 RIP 报 文 需要 认证 
验证 类 型 : 


Authentication type 2 表示 明文 验证 ; 
3 表示 MD5 验证 


Authentication 包含 验证 的 信息 


2.4.4 路 由 聚合 


当 网 络 规模 很 大 时 ， 路 由 表 会 变 得 十 分 庞大 ， 存 储 路 由 信息 将 会 占用 大 量 的 设备 内 
存 资源 ， 传 输 和 处 理 路 由 信息 需要 占用 大 量 的 网 络 带宽 ， 尤 其 是 RIP 每 次 更 新 都 发 送 整 
个 路 由 表 信息 ， 使 用 路 由 聚合 可 以 大 大 减 小 路 由 表 的 规模 。 另 外 ， 通 过 对 路 由 进行 聚合 ， 
隐藏 一 些 具 体 的 路 由 ， 可 以 减少 路 由 震荡 给 网 络 带 来 的 影响 。 

RIP 分 为 两 种 聚合 方式 :自动 路 由 聚合 和 手动 路 由 聚合 。RIPvl 和 RIPv2 都 能 够 支 
持 自 动 聚 合 功 能 ， 当 路 由 器 处 于 主 网 边界 时 ， 会 将 路 由 有 类 聚合 并 发 布 出 去 。 而 只 有 
RIPv2 才 可 以 支持 手动 聚合 ， 手 动 聚 合 的 好 处 在 于 可 以 更 加 灵活 地 聚合 地 址 。 

。 ”RIP 自动 路 由 聚合 

缺 省 情况 下 ，RIPv1 和 RIPv2 都 会 在 主 网 边界 进行 自动 聚合 ， 聚 合成 有 类 网 络 。 但 
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不 同 的 是 , RIPV1 不 能 关闭 自动 聚合 , 这 样 将 会 造成 不 连续 子 网 的 问题 (后 面 将 会 讨论 )， 
而 RIPv2 可 以 关闭 。 


说 明 : 

如 果 配 置 了 水 平分 割 或 毒性 逆转 ， 有 类 聚合 将 失效 , 而 水 平分 割 是 默认 开启 的 , 因此 ， 
运行 RIPv2 的 路 由 器 不 会 自动 聚合 。 另 外 一 种 方式 可 以 在 RIPv2 进程 中 使 用 命令 summary 
always 来 开启 自动 聚合 ， 此 时 不 论 水 平分 割 或 毒性 逆转 是 否 启 用 。 


。 ”RIP 手动 路 由 聚合 


说 明 : 

只 有 RIPv2 可 以 支持 手动 聚合 ， 手 动 路 由 聚合 的 路 由 优先 级 要 高 于 自动 聚合 的 路 由 优 
先 级 ， 手 动 聚合 比 自动 聚合 部 署 起 来 更 加 灵活 ， 更 加 适合 用 于 规划 网 络 ， 手 动 路 由 聚合 
通过 在 接口 下 的 命令 rip summary-address 来 实现 。 


2.4.5 ”案例 研究 : 自动 路 由 具 合 造成 不 连续 子 网 问题 


所 谓 不 连续 子 网 ， 指 的 是 同一 主 类 网 络 的 子 网 被 其 他 主 类 网 络 或 其 他 主 类 网 络 的 
子 网 分 隔 ， 造 成 子 网 的 不 连续 。 而 RIPvl 会 带 来 不 连续 子 网 的 问题 ， 具 体 情况 如 图 2-8 
所 示 ，R1 通告 了 一 条 网 段 172.16.1.0/24，R3 通告 了 一 条 网 段 172.16.2.0/24， 这 两 条 网 段 
属于 同一 主 网 ， 而 中 间 被 另外 一 个 主 网 10.1.12.0/24、10.1.23.0/24 隔 开 ， 造 成 不 连续 的 
网 络 。 








Destination/Mask Nexthop 
172.16.0.0/16 10.1.12.1 


10.1.23.3 





172.16.1.0/24 172.16.2.0/24 


图 2-8 ”案例 研究 ; 自动 聚合 造成 的 不 连续 子 网 问题 


问题 分 析 : R1、R2、R3 同时 运行 RIPv1，R2 将 会 从 R1 和 R3 同时 学 习 到 两 个 网 
段 ， 由 于 R1 和 R3 都 连接 着 两 个 不 同 的 主 网 ， 这 两 台 设备 都 是 主 网 的 边界 设备 ， 当 R1 
从 G0/0/0 接口 通告 172.16.1.0 网 段 给 R2 时 ， 被 自动 汇总 为 172.16.0.0， 而 R2 收 到 后 将 
会 给 予 一 个 有 类 的 网 络 掩 码 /16。R3 同样 也 会 通告 一 条 172.16.0.0 的 路 由 给 R2， 此 时 在 
R2 的 路 由 表 中 将 会 有 两 条 同样 的 路 由 ， 都 是 172.16.0.0/16， 且 这 两 条 路 由 的 Cost 值 相 
同 , 那么 R2 将 会 同时 将 它们 放 进 路 由 表 中 , 负载 分 担 。 如 果 此 时 R2 要 去 访问 172.16.1.0 
网 段 ， 那 么 会 同时 匹配 到 172.16.0.0/16 这 条 路 由 ， 该 路 由 有 两 个 下 一 跳 ， 一 个 是 R1， 一 
个 是 R3， 如 果 基 于 每 数据 包 的 负载 均衡 方式 ， 那 么 数据 包 将 会 一 部 分 发 往 R1， 一 部 分 
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发 往 R3， 这 样 会 导致 有 一 半 的 流量 正常 ， 一 半 的 流量 会 丢弃 。 
解决 办 法 如 下 : 
(1) 升级 网 络 为 RIPvV2， 并 且 将 自动 汇总 关闭 ， 使 R2 收 到 的 是 明细 路 由 ; 
(2) 重新 规划 网 络 ， 将 网 络 设计 为 连续 的 子 网 ; 
(3) 通过 GRE 隧道 的 方式 使 其 连续 ; 
(4) 配置 辅助 地 址 使 子 网 连续 。 


2.4.6 “案例 研究 : 手动 诊 合 造成 的 路 由 环 路 问题 


问题 描述 : 如 图 2-9 所 示 , 在 R2 有 3 个 网 段 , 为 了 减少 路 由 表 的 路 由 数量 , 在 G0/0/0 
接口 下 做 了 手动 聚合 ， 将 聚合 路 由 172.16.0.0/16 发 送 给 R1。 此 时 ， 如 果 R1 的 接口 将 水 
平分 割 关 闭 了 , 那么 将 会 从 该 接口 重新 把 聚合 路 由 发 送出 去 ，R2 又 会 从 原 接口 收 到 这 条 
聚合 路 由 ， 下 一 跳 地 址 指向 R1。 如 果 R1 需要 访问 R2 中 所 没有 的 明细 路 由 172.16.4.0， 
那么 将 会 匹配 到 该 聚合 路 由 ， 数 据 包 将 会 发 给 R2， 而 R2 路 由 表 中 没有 明细 路 由 ， 最 终 
再 次 匹配 到 该 聚合 路 由 ， 数 据 包 再 次 发 给 R1， 这 样 将 会 造成 环 路 。 












Summary 172.16.0.0/16 R2 
天 一 一 一 一 一 一 





172.16.1.0/24 
172.16.2.0/24 
172.16.3.0/24 


图 2-9 手动 聚合 造成 的 路 由 环 路 问题 


解决 办 法 如 下 。 

(1) 在 R2 的 路 由 表 中 增加 一 条 静态 路 由 ， 出 接口 指向 NULL 0 (所 谓 NULLO， 是 
指 空 接口 匹配 到 该 路 由 后 直接 丢弃 数据 包 )， 防 止 R2 使 用 这 条 聚合 路 由 。 使 用 命令 : ip 
route-static 172.16.0.0 16 null 0。 

(2) 保持 水 平分 割 的 启用 ， 避 免 R2 重新 收 到 这 条 聚合 路 由 。 

(3) 配置 手动 路 由 聚合 时 ， 在 命令 后 面 添加 avoid-feedback 参数 ， 防 止 从 该 接口 再 
次 接收 到 聚合 路 由 ， 避 免 造 成 环 路 。 


2.5 _RIPng 协议 


2.5.1 ”RIPng 协议 介绍 


RIPng 是 一 种 较为 简单 的 内 部 网 关 协 议 ， 是 RIP 在 IPv6 网 络 中 的 应 用 。RIPng 主要 
用 于 规模 较 小 的 网 络 中 ， 比 如 校园 网 以 及 结构 较 简单 的 地 区 性 网 络 。 由 于 RIPng 的 实现 
较为 简单 ， 在 配置 和 维护 管理 方面 也 远 比 OSPFv3 和 IS-IS for IPv6 容易 ， 因 此 在 实际 组 
网 中 仍 有 广泛 的 应 用 。 

在 IPv6 网 络 中 同样 需要 动态 路 由 协议 为 IPv6 报 文 的 转发 提供 准确 有 效 的 路 由 信息 。 
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因此 , IETF 在 保留 了 RIP 优点 的 基础 上 ,针对 IPv6 网 络 特点 修改 形成 了 RIPng (RIP 
Next Generation， 下 一 代 RIP 协议 )。RIPng 主要 用 于 在 IPv6 网 络 中 提供 路 由 功能 ， 
是 IPv6 网 络 中 路 由 技术 的 一 个 重要 组 成 协议 ， 它 具备 与 RIP 一 致 的 协议 机 制 ， 但 仍 
存在 几 点 不 同 。 


2.5.2 RIPng 报 文 格式 


相 比 于 RIP 报 文 的 固定 500 字 节 大 小 的 UDP 载荷 ，RIPng 则 无 此 限制 , 每 个 路 由 块 
的 大 小 为 20 字 节 。RIPng 报 文 头 同 RIP 报 文 头 大 小 一 致 ， 为 4Byte， 如 图 2-10 所 示 。 


32 bits 
| 8 8 8 8 
We 3 


IPv6 Prefix 1 


Multiple Route Entries 


IPv6 Prefix 


图 2-10 RIPng 报 文 格式 







Route 
Entry 1 


Route 
Entryn 


RIPng 报 文 内 容 如 下 。 

。 Command: 包含 请 求 报 文 (request) 和 响应 报 文 (response)。 

e。 Version: 版 本 号 为 1。 

。 JPv6 Prefix: 16Byte 大 小 ， 记 录 IPv6 前 级 。 

。 RouteTag: 标记 IPv6 前 缀 的 标记 ， 同 IPv4 用 法 一 样 ， 字 域 长 度 为 8bit。 
。 ”PrefixLength:IPv6 前 级 的 长 度 ， 即 掩 码 长 度 。 

。 ”Metric:RIPng 跳 数 ， 最 大 15 跳 。 


明显 区 别 于 IPv4 的 是 , 在 上 述 的 RTE (Route Table Entry) 中 没有 看 到 路 由 的 下 一 跳 地 址 。 
这 可 参考 下 一 跳 部 分 。 


2.5.3 RIPng 协议 特性 


RIPng 是 工作 在 IPv6 上 的 直 连 路 由 器 之 间 的 一 个 协议 , 它 使 用 和 RIP 一 样 的 工作 机 
制 。RIPng 和 RIP 的 相同 之 处 如 下 。 
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和 | 第 二 章 _ 路 由 信息 协议 | ，__ 
。 RIPng 使 用 和 RIP 一 样 的 报 文 类 型 ， 包 含 request 和 response。 
。 ”RIPng 使 用 和 RIP 一 样 的 计时 器 。 
e。 了 RIPng 和 RIP 一 样 有 水 平分 割 和 毒性 逆转 机 制 。 
。 RIPng 和 RIP 一样 有 filter-policy、metricin 及 metricout、import-route 等 路 由 控 


制 命令 。 
。 ”RIPng 使 用 和 RIP 一 样 的 算法 及 防 环 解决 方案 。 
RIPng 和 RIP 的 不 同 之 处 如 下 。 


。 ”RIPng 使 用 UDP 的 521 端口 (RIP 使 用 520 端口 ) 发 送 和 接收 路 由 信息 。 

。 RIPng 通告 和 接收 的 是 128bit 的 IPv6 前 绥 长 度 〈 掩 码 长 度 )。 

。 RIPng 使 用 链 路 本 地 地 址 FE80::/10 作为 源 地 址 发 送 RIPng 路 由 信息 更 新 报 文 。 
或 者 说 RIPng 是 工作 在 Link-Local 地 址 之 上 的 路 由 协议 。 

。 ”RIPng 的 路 由 在 路 由 表 中 的 下 一 跳 地 址 一 定 是 IPv6 Link-local 地 址 。 

。 RIPng 使 用 组 播 方式 周期 性 地 发 送 路 由 信息 , 使 用 FF02::9 作为 链 路 本 地 范围 内 
的 路 由 器 组 播 地 址 。 

。  RIPng 报 文 由 头 部 〈Header) 和 多 个 路 由 表 项 RTE 组 成 。 在 同一 个 RIPng 报 文 
中 , RTE 的 最 大 数目 根据 接口 的 MTU 值 来 确定 ,没有 RIP 的 25 条 路 由 的 限制 。 

。 RIPng 协议 本 身 没 有 提供 验证 功能 。 若 需要 做 路 由 器 间 的 验证 ， 使 用 IPv6 协议 
的 验证 功能 。 

。 使 用 display ipv6 routing-table 等 命令 查看 IPv6 的 路 由 信息 。 


2.5.4 RIPng 下 一 跳 


RIPng 使 用 和 RIPv2 一 样 的 下 一 跳 机 制 ， 可 使 路 由 的 下 一 跳 不 同 于 通告 路 由 的 路 
由 器 。 但 IPv6 下 的 RIPng 为 节省 更 新 开销 ， 在 RIPng 报 文中 对 下 一 跳 地 址 的 传递 做 如 
下 定义 。 

RIPng 下 一 跳 和 RIPv2 一 样 , 如 果 没 有 说 明 , 使 用 报 文 的 源 地 址 。IPv6 在 设计 RIPng 
报 文 结构 时 ， 考 虑 到 有 些 路 由 需要 有 不 同 于 其 他 路 由 的 下 一 跳 ， 所 以 RIPng 为 控制 RTE 
的 大 小 ， 并 没有 在 每 个 RTE 中 定义 下 一 跳 地 址 ， 而 是 单独 使 用 一 个 RTE 来 表示 下 一 跳 ， 
把 使 用 该 下 一 跳 的 那些 RTE 路 由 前 级 紧 随 其 后 放置 。 

代表 下 一 跳 的 RTE 的 格式 如 图 2-11 所 示 。 


0 1 2 3 
由 站 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 寸 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 

i IPv6 next hop address (16) + 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Must be zero (2) | Mustbezero() | OxFF | 


十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


图 2-11 表示 下 一 跳 的 RTE 





RTE 中 的 Tag 字 域 必须 为 0， 前 缀 长 度 必须 为 0，Metric 必须 为 0xff， 该 RTE 中 的 
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IPv6 前 绥 字 域 代 表 IPv6 路 由 前 绥 的 下 一 跳 。 

示例 : 如 图 2-12 所 示 , 共有 6 个 RTE, 前 两 个 RTE 是 2000:29:29:48::/64 和 2000:29: 
29:200::/64 路 由 前 级 。 这 两 条 路 由 的 下 一 跳 地 址 是 报 文 的 源 地 址 fe80::4elf:ccff:fe06:5bf4。 
第 四 个 RTE 的 路 由 2000:29:29:148::148/128 的 下 一 跳 是 RTE 的 下 一 跳 地 址 
fe80::4elf:ccff:fe8d::2208/0。 第 六 个 RTE 的 路 由 2000:29:29:148::148/128 的 下 一 跳 是 RTE 
中 的 下 一 跳 地 址 fe80: : 8。 


田 Ethernet II, Src: HuaweiTe_06:5b:f4 (4c:1f:;cc:06:5b:f4), : IPV6mcast_00:00:;00:09 (33:33:00:00:00:09) 
Internet Protocol Version 6, src: fe80::4e1f:ccff:fe06: a (fe80: :4e1if:ccff; 0 Sbf4), Dst: ff02:19 (ff02:39) 
Em User Datagram Protocol, src Port: ripng (521), Dst Port: ripng (521) 
S RIEPng 
Command: Response (2) 
Version: 1 
因 IP Address: 2000:29:29:;48::/64, Metric: 1 
BIP Address: 2000:29:29:200::/64, Metric: 1 
IP Address: 2000:29:29:200:: 
Tag: 0x0000 
Prefix length: 64 
Metric: 1 
B IP Address: fe80::4e1lf:ccff:fe8d:2208/0, Metric: 255 
IP Address: fe80::4elf:ccff:fe8d:2208 
Tag: 0x0000 
Prefix length: 0 
Metric: 255 
B IP Address: 2000:29:29:148::148/128, Metric: 16, tag: 0x0001 
IP Address: 2000:29:29:148::148 
Tag: 0x0001 
Prefix length: 128 
Metric: 16 
EB IP Address: fe80::8/0, Metric: 255 
四 ITP Address: 2000:29:29:148: :148/128, Metric: 1, tag: 0x0001 


图 2-12” ”RIPng 报 文 的 截图 


2.5.5 ”RIPng 配置 实例 


场景 描述 : 如 图 2-13 所 示 ， 地 址 规划 是 2000:10:1:XY::Z/64, XX 和 YY 是 路 由 器 编号 ， 
而 Z 是 接口 所 在 路 由 器 的 编号 。R1、R3、R4 处 于 RIPng 进程 1 中 , R2 和 R3 处 在 RIPng 
进程 2 中 。 


a ey 
/uy 


/ 2000:172:16:1::/64 “~~~ 
2000:172:16:2::/64 





图 2-13” RIPng 配置 实例 
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需求 如 下 。 
。 Rl 上 有 直 连 网 络 2000:172:16:1::/64 一 2000:172:16:F::/64， 需 要 通告 到 全 网 。 为 
减少 R1 通告 的 路 由 数量 ， 对 R1 通告 的 路 由 做 最 精确 的 聚合 。 
。  R4 和 R2 通告 相同 网 段 2000:172:16:24AB::/64, 希望 R1 优选 经 过 R2 访问 ,次 
选 经 过 R4 访问 。 
。 要求 R2 有 最 少 的 路 由 ， 且 能 访问 到 其 全 全 部 网 络 。 
。 ”保证 R4 不 能 接收 R2 所 通告 的 2000:172:17::/48 的 路 由 。 
需求 1: R1 上 有 直 连 网 络 2000:172:16:1::/64 一 2000:172:16:F::/64， 需 要 通告 到 全 
网 。 为 减少 R1 通告 的 路 由 数量 ， 对 R1 通告 的 路 由 做 最 精确 的 聚合 。 
分 析 思 路 ，R1 上 发 布 所 有 接口 到 RIPng-1 中 ， 并 在 R1 出 口 G0/0/0 对 2000: 172: 
16 范围 的 路 由 做 汇总 。 
解决 方法 : 在 R1 上 完成 以 下 基本 配置 ， 通 告 2000:172:16:1::/64 一 2000:172:16:F::/64 
到 网 络 ， 配 置 如 下 。 
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oe ee ee ee ee ee ee ee 一 


为 保证 全 网 路 由 可 达 ， 其 他 路 由 器 的 配置 和 RI 相似 ， 此 处 省 略 其 他 路 由 器 的 基本 
配置 过 程 。 





| 第 二 章 路 由 信息 协议 | 


在 Rl 的 G0/0/0 接口 做 路 由 聚合 


interface GigabitEthernet0/0/0 
ipv6 enable 
ip address 13.1.1.1 255.255.255.0 
ipv6 address 2000:10:1:13::1/64 
Tipng 1 enable 
ripng summary-address 2000:172:16:: 60 ayoid_feedback 


需求 2，R4 和 R2 通告 相同 网 段 2000:172:16:24AB::/64， 希 望 R1 优选 经 过 R2 访 
问 ， 次 选 经 过 R4 访问 。 

分 析 思 路 : R2 和 R4 通告 相同 的 路 由 到 网 络 ， 在 R3 上 ， 学 到 R4 在 RIPng 进程 1 
中 的 2000:172:16:24AB::/64, 同时 也 学 到 R2 在 RIPng 进程 2 中 的 2000:172:16:24AB::/64 
路 由 ， 二 者 的 preference 数值 一 致 ， 同 时 出 现在 R3 路 由 表 中 。 

解决 方法 : 可 在 R3 上 调整 从 R4 收 到 的 路 由 , 在 R3 的 G0/0/2 接口 对 收 到 的 路 由 的 
入 方向 metric 做 调整 ， 增 加 1。 

未 调整 metric 前 , R3 路 由 表 中 有 两 条 到 达 2000:172:16:24AB::/64 的 路 由 , 由 于 Cost 
值 相 等 ， 因 此 负载 分 担 。 

<R3>display ipv6 routing-table 


Routing Table : Public 
Destinations : 13 ”Routes : 14 


Destination : 2000:172:16:24AB:: PrefixLength : 64 

NextHop :FE80::2E0:FCFF:FE5A:53E0 Preference :100 
Cost a Protocol :RIPng 
RelayNextHop : :: TunnellD : 0x0 
Interface :GigabitEthemet0/0/1 Flags ‘DD 
Destination : 2000:172:16:24AB:: PrefixLength : 64 


Preference :100 


NextHop : FE80::2E0:FCFF:FEAA:360B 

Cost :1 | Protocol :RIPng 

RelayNextHop : : : TunnelD : 0x0 

JInterface : GigabitEthemetO/0/2 Flags 了 
Destination : FE80:: PrefixLength ; 10 

NextHop Preference :0 

Cost :0 Protocol :Direct 

RelayNextHop : :: TunnelID :0x0 

Interface :NULLO Flags 


为 方便 查看 ， 只 显示 部 分 路 由 信息 ， 其 他 省 略 .， 
在 R3 的 G0/0/2 使 用 metricin 工具 将 Cost 值 增加 1， 然 后 查看 路 由 表 。 


[R3]interface GigabitEthernet0/0/2 
[R3-GigabitEthernet0/0/2] ripng metricin 1 


<R3>display ipv6 routing-table 
Routing Table : Public 
Destinations ; 13 Routes ; 13 


ne 


Destination :2000:172:16:24AB:: 。 PrefixLength : 64 
NextHop :FE80::2E0:FCFF:FE5A:S3E0 Preference :100 
Cosf Protocol :RIPng 
RelayNextHop : :: ‘TunnellD :0x0 
Interface : GigabitEthernet0/0/1 Flags “下 
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Destination :FE80:: PrefixLength : 10 
NextHop Se Preference ;0 
Cost 10 Protocol :Direct 
RelayNextHop : :: TunnelID :0x0 
Interface :NULL0 Flags :DD 


为 方便 查看 ， 只 显示 部 分 路 由 信息 ， 其 他 省 略 … 

在 调整 Cost 值 以 后 ，R3 去 往 2000:172:16:24AB::/64 网 段 将 会 优先 选择 R2 为 目的 地 。 

需求 3， 要求 R2 有 最 少 的 路 由 ， 且 能 访问 到 其 他 全 部 网 络 。 

分 析 思 路 :需要 在 R3 上 RIPng 进程 2 下 向 G0/0/2 方向 通告 一 条 默认 路 由 。 

解决 方法 : 在 R3 的 G0/0/1 接口 下 使 用 命令 ripng default-route originate 发 布 默认 
路 由 。 


[R3] interface GigabitEthernet0/0/1 
[R3-GigabitEthernetO/O/1]ripng default-route originate 
查看 R2 的 路 由 表 ， 可 以 看 到 一 条 默认 路 由 。 
<R2>display ipv6 routing-table 
Routing Table : Public 

Destinations :8 Routes:8 


Destination : :: PrefixLength :0 
NextHop : FE80::2E0:FCFF:FE0D:4DEB Preference :100 
Cost 人 Protocol :RIPng 
RelayNextHop : :: TunnelID :0x0 
Interface : GigabitEthernet0/0/1 Flags :了 

为 方便 查看 ， 只 显示 部 分 路 由 信息 ， 其 他 省 略 …… 


需求 4， 保证 R4 不 能 接收 R2 所 通告 的 2000:10:1:23::/64 的 路 由 。 

分 析 思 路 : 首先 将 RIPng 进程 2 中 的 路 由 引入 到 RIPng 进程 1 中 ， 在 R4 上 对 收 到 
的 路 由 进行 过 滤 ， 仅 过 滤 2000:10:1:23::/64。 可 以 使 用 filter-policyy， 也 可 以 使 用 metricin 
命令 对 收 到 的 路 由 添加 metric， 使 其 超过 15， 但 metricin 命令 会 影响 其 他 路 由 的 学 习 。 

解决 方法 : 在 R3 上 将 RIP 进程 2 引入 到 进程 1 中 。 

[R3]ripng 1 

[R3-ripng-1]import-route ripng 2 


在 R4 上 配置 filter-policy 来 做 路 由 过 滤 。 
[R4]acl ipv6 2000 
[R4-acl6-basic-2000]rule 1 deny source 2000:10:1:23:: 64 
[R4-acl6-basic-2000]rule 2 permit source any 
[R4-acl6-basic-2000]quit 
# 
[R4]ripng 1 
[R4-ripng-1]filter-policy 2000 import 
查看 R4 的 路 由 表 ， 观 察 到 已 经 将 路 由 2000:10:1:23::/64 过 滤 掉 了 。 
[R4]display ipv6 routing-table 
Routing Table : Public 
Destinations : 11 ”Routes : 11 1 
Destination :31 PrefixLength : 128 


NextHop : 地 Preference :0 
Cost :0 Protocol : Direct 
RelayNextHop : :: TunnellD :0x0 
Interface : InLoopBack0 Flags ‘DD 
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Destination ;2000:10:1:1::1 PrefixLength :128 
NextHop :FE80::2E0:FCFF:FE0D:4DEC Preference :100 
Cost Ln Protocol :RIPng 
RelayNextHop : :: TunnellD :0x0 
Interface : GigabitEthernet0/0/2 Flags :D 
Destination : 2000:10:1:2::2 PrefixLength :128 
NextHop :FE80::2E0:FECFF:FE0D:4DEC Preference :100 
Cost Protocol :RIPng 
RelayNextHop : :: TunnelID : 0x0 
Interface : GigabitEthemet0/0/2 Flags :Dm 
Destination : 2000:10:1:4::4 PrefixLength :128 
NextHop pa Preference :0 
Cost :0 Protocol : Direct 
RelayNextHop : :: TunnelID :0x0 
Interface :LoopBack0 Flags :DD 
Destination  ; 2000:10:1:13:; PrefixLength :64 
NextHop : FE80::2E0:FCFF:FEOD:4DEC Preference :100 
Cost | Protocol :RIPng 
RelayNextHop : :: TunnelID : 0x0 
Interface : GigabitEthernet0/0/2 Flags 0 
Destination :2000:10:1:34:: PrefixLength :64 
NextHop : 2000:10:1:34::4 Brefetrence :0 
Cost :0 Protocol : Direct 
RelayNextHop ; :: TunnelID :0x0 
Interface : GigabitEthernet0/0/2 Flags :DD 
Destination :2000:10:1:34::4 PrefixLength :128 
NextHop tl 1 Preference :0 
Cost :0 Protocol : Direct 
RelayNextHop : :: TunnelID :0x0 
Interface : GigabitEthernet0/0/2 Flags :D 
Destination :2000:172:16:: PrefixLength :60 
NextHop :FE80::2E0:FCFF:FE0D:4DEC Preference :100 
Cost 2 Protocol :RIPng 
RelayNextHop : :: TunnellD :0x0 
Interface : GigabitEthemet0/0/2 Flags "DD 
Destination :2000:172:16:24AB:: PrefixLength :64 . 
NextHop : 2000:172:16:24AB::4 Preference :0 
Cost 0 Protocol : Direct 
RelayNextHop : :: TunnelID - :0x0 
Interface :LoopBack200 Flags 1D 
Destination : 2000:172:16:24AB::4 PrefixLength :128 
NextHop :::1 Preference :0 | 
Cost :0 Protocol :Direct 
RelayNextHop : :: TunnelID : 0x0 
Interface :LoopBack200 Flags :BD 
Destination :FE80:: PrefixLength :10 
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NextHop 5 Preference :0 
Cost a0 Protocol :Direct 
RelayNextHop : :: TunnelID ;0x0 
JInterface :NULL0 Flags :了 

汪 缩 : 


通过 该 实例 ， 了 解 了 RIPng 的 相关 配置 ， 如 RIPng 进程 的 启用 、 默 认 路 由 的 发 布 、 路 由 
的 聚合 、 路 由 的 控制 等 ， 具 体 思 路 其 实 与 IPv4 的 RIP 相似 ， 只 不 过 RiPng 针对 的 是 IPv6 的 
路 由 。 


2.6 ”案例 分 析 


2.6.1 案例 1: 接口 故障 造成 的 RIP 收敛 问题 


场景 以 及 问题 描述 : 如 图 2-14 所 示 ，R1/R2/R3/R4/R5 都 运行 RIPV2， 且 都 关闭 了 自 
动 汇 总 ，R5 有 一 个 网 络 10.1.5.0 通告 到 RIP 进程 ， 观 察 如 下 两 个 问题 。 


R5 RI SWI R2 R4 
E> 
C3 坊 G000 G0/011 Eat G0/010 Go/011 出 G0/0/2 Go/00 at SY ,SW 
为 ee 
民 < 故国 隐 R 
~<&o SR 
A 
10.1.5.0/24 < Sv 
Ky SY 
”So7 R3 宁 7 


图 2-14 接口 故障 造成 的 RIP 收敛 问题 


(1) 如 果 SW1 的 G0/0/1 接口 出 现 了 故障 ， 观 察 R2 路 由 表 以 及 计时 器 的 变化 。 

(2) 如 果 SW1 的 G0/0/2 接口 出 现 了 故障 ， 观 察 R2 路 由 表 以 及 计时 器 的 变化 。 

分 析 一 : 当 网 络 正 常 的 情况 下 , R2 去 往 10.1.5.0 /24 的 路 由 的 下 一 跳 地 址 一 定 是 R1， 
且 跳 数 为 2 跳 。 如 果 SW1 的 G0/0/1 接口 出 现 故障 ， 那 么 R2 就 收 不 到 RI1 发 给 它 的 更 新 
报 文 ， 路 由 表 的 变化 和 定时 器 的 变化 如 下 。 

在 180s 内 ，R2 还 认为 10.1.5.0 是 可 达 的 ， 路 由 表 中 还 会 有 该 路 由 ， 如 果 这 时 有 去 
往 10.1.5.5 的 报 文 ， 就 会 出 现 丢 包 的 现象 。 

超过 180s 后 ，R2 还 没有 收 到 R1 给 它 的 更 新 报 文 ， 那 么 会 启用 120s 的 垃圾 收集 定 
时 器 , 同时 会 把 它 路 由 表 中 的 10.1.5.0 /24 下 一 跳 为 Rl1 的 路 由 的 跳 数 设置 为 16 跳 。 这 时 
候 R2 会 执行 两 个 操作 。 

(1) 当 跳 数 为 16 的 时 候 ，R2 会 把 该 路 由 从 路 由 表 中 删除 ， 但 是 R2 的 RIP 数据 库 
中 还 会 保留 该 路 由 ， 跳 数 为 16 跳 。 

(2) R2 会 去 询问 它 的 邻居 路 由 器 ， 是 否 还 有 其 他 去 往 10.1.5.0/24 且 跳 数 小 于 16 跳 
的 路 由 。 这 时 R2 会 找到 一 条 下 一 跳 为 R3 且 跳 数 为 3 的 10.1.5.0/24 的 路 由 ,并 把 它 放 到 
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RIP 路 由 表 和 RIP 数据 库 中 。 
当 SW1 的 G0/0/1 接口 恢复 了 以 后 ，R1 会 在 30s 内 发 送 更 新 报 文 给 R2，R2 收 到 了 去 
往 10.1.5.0 下 一 跳 更 优 的 路 由 时 ， 会 把 更 优 的 下 一 跳 地 址 加 入 它 的 RIP 路 由 表 和 数据 库 中 。 


具体 情况 如 下 所 示 。 
在 180s 内 ， 查 看 R2 的 RIP 的 数据 库 ， 仍 然 存 在 10.1.5.0/24 网 段 路 由 。 
<R2>display rip 1 database 


EE 


Advertisement State : [A]-Advertised 
四 -NotAdvertised/Withdraw 





10.1.12.0/24, cost 0, A i 
10.1.13.0/24, cost 1, [A], nexthop 10.1.12.1 
10.1.13.0/24, cost 1, [A], nexthop 10.1.23.3 
10.1.15.0/24, cost 1, [Al], nexthop 10.1.12.1 
10.1.23.0/24, cost 0, [A], Rip-interface 
10.1.24.0/24, cost 0, [A], Rip-interface 


超过 180s 以 后 ， 启 动 120s 的 垃圾 收集 定时 器 ， 查 看 R2 的 RIP 数据 库 ， 已 经 被 标 
记 为 1 (路 由 失效 )。 


"<R2>display rip 1 database 


~ Advertisement State : [A]-Advertised | 
四 -NotAdvertised/Withdraw 


i 


10.0.0.0%, cost 0, ClassfulSumm 





10. 1.5.0/24, cost 3, [A], nexthop 10.1 23. 3 | 
10.1.12.0/24, cost 0, [A], Rip-interface 
‘10.1.13.0/24, cost 16, [1], nexthop 10.1.12.1 
10.1.13.0/24, cost 1, [A], nexthop 10.1.23.3 
10.1.15.0/24, cost 16, [OD], nexthop 10.1.12.1 
10.1.15.0/24, cost 2, [A], nexthop 10.1.23.3 
10.1.23.0/24, cost 0, [A], Rip-interface 
10.1.24.0/24, cost 0, [A], Rip-interface 

重新 收敛 完成 后 ， 查 看 R2 上 RIP 的 数据 库 ， 重新 收 到 了 路 由 ， 下 <- 跳 为 R3。 

<R2>display rip 1 database 

。 Advertisement State : [A]-Advertised 
四 -NotAdvertised/Withdraw 


--------~-~-~------~------------------------------------------------------- 


10.0.0.0/8, cost 0, ClassfulSumm 





10.1.12.0/24, cost 0, [A], Rip-interface 
10.1.13.0/24, cost 1, [A], nexthop 10.1.23.3 

10.1.15.0/24, cost 2, [A], nexthop 10.1.23.3 
10.1.23.0/24, cost 0, [A], Rip-interface 
10.1.24.0/24, cost 0, [A], Rip-interface 


分 析 二 : 在 网 络 正常 的 情况 下 ，R2 去 10.1.5.0 /24 的 路 由 的 下 一 跳 地 址 一 定 是 R1， 
且 跳 数 为 2 跳 。 如 果 SW1 的 G0/0/2 接口 出 现 了 故障 ， 那 么 R2 就 会 立刻 知道 去 往 
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10.1.5.0/24 的 下 一 跳 是 R1 的 链 路 出 现 了 故障 ， 因 此 R2 会 执行 如 下 操作 。 

。 ” 当 R2 知道 了 去 往 10.1.5.0/24 的 下 一 跳 是 R1 的 链 路 出 现 了 故障 , 立刻 会 触发 路 
由 毒化 机 制 ， 把 该 路 由 置 为 16 跳 ， 并 将 其 从 路 由 表 中 删除 。 

。 同时 在 R2 的 RIP 数据 库 中 会 把 10.1.5.0/24 的 下 一 跳 是 R1 的 路 由 置 为 16 跳 ， 
并 且 启 用 120s 的 垃圾 收集 定时 器 。 

。 ”R2 还 会 去 询问 它 的 邻居 路 由 器 ， 是 否 还 有 其 他 去 往 10.1.5.0/24 且 跳 数 小 于 16 
跳 的 路 由 。 这 时 R2 会 找到 一 条 下 一 跳 为 R3 且 跳 数 为 3 跳 的 10.1.5.0/24 路 由 ， 
并 把 它 放 到 RIP 路 由 表 和 RIP 数据 库 中 。 


2.6.2 ”案例 2: RIPv2 中 Next-hop 的 作用 


场景 描述 : 如 图 2-15 所 示 ，R1 与 R2 运行 OSPF 协议 ,， R1 和 R3 运行 RIPv2 路 由 协 
议 ，R2 将 100.1.1.0/24 通告 进 OSPF，R1 将 OSPF 引入 RIP, 观察 一 下 R3 的 路 由 到 达 目 
标 网 段 100.1.1.0 的 下 一 跳 (Next-hop〉 是 哪个 地 址 ? 


i 一 二 二 
a sa 


一 
人 






I 
10.1.1.1/24) 


| 

1 
\ 
\ 





图 2-15 ”RIPv2 案例 研究 (Next-hop) 


分 矿 : 

R1 通过 OSPF 学 到 路 由 100.1.1.0/24， 且 将 路 由 引入 RIP 协议 ，R3 通过 R1 学 到 该 外 部 
路 由 。R3 要 去 往 该 目的 地 址 ， 下 一 跳 理 所 当然 应 该 选择 R1 (10.1.1.1) ， 而 R1 与 R2 和 R3 
都 属于 同一 个 广播 多 址 网 络 ;。R1 从 G0/0/0 接口 接收 到 报 文 ， 又 需要 从 该 接口 将 报 文 发 送 
给 R2， 这 样 将 会 带 来 次 优 路 径 。 


在 RIPvl 协议 中 没有 Next-hop 字段 ， 因 此 R3 收 到 的 路 由 的 下 一 跳 地 址 应 该 为 
10.1.1.1， 而 在 RIPv2 协议 的 报 文中 有 个 Next-hop 字段 ， 该 字段 可 以 用 于 解决 次 优 路 径 ， 
R1 将 外 部 路 由 引入 RIP 协议 中 时 ，R3 收 到 的 报 文中 100.1.1.0/24 的 Next-hop 地 址 实际 
上 为 10.1.1.2, 该 地 址 实际 与 R3 的 直 连 接口 在 同一 网 段 , 那么 R3 发 送 数据 包 到 100.1.1.0 
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网 段 时 可 以 直接 经 由 R2 到 达 ， 而 无 需 发 送 给 R1。 
配置 RIP 协议 为 vl 版 本 时 ， 观 察 R3 的 路 由 表 ， 下 一 吵 地 址 为 TD 守 .EI 


<R3>display ip routing-table 
Route Flags: R-relay, D-download to fib 


Routing Tables: Public 









Destinations :8 Routes :8 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
10.1.1.0/24 Direct 0 0 人 GigabitEthernet0/0/0 
10.1.1,3/32 Direct 0 0 D 127.00.1 GigabitEthernet0/0/0 
10:1,1.255/32 Direct 必 0 D127100.1 GigabitEthernet0/0/0 
127.0.0.0/8 Direct 0 0 a "21.0.0.1 InLoopBack0 
127.0.0,1/32 Direct 0 0 DD 12700,1 InLoopBack0 
127.255.255.255/32 Direct 0 0 I 2 InLoopBack0 
255.255.255.255/32 Direct 0 0 127.0.0.1 InLoopBack0 
改 为 RIPv2 时 ， 再 观察 一 下 R3 的 路 由 表 ， 下 一 跳 地 址 改 为 了 10.1.1.2。 
<R3>display ip routing-table 
Route Flags: R-relay, D-download to fib 
Routing Tables: Public 
Destinations : 8 Routes :8 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
10.1.1.0/24 Direct 0 0 D101.13 GigabitEthermet0/0/0 
10.1.1.3/32 Direct 0 0 ， D 1270.0.1 GigabitEthernet0/0/0 
“0.1.1.255/32 -Direct 0 0 D1270.0.1 es 
127.0.0.0/8 Direct 0 0 D 127， 0 0.1 Inl.oopBackd 
127.0.0.1/32 Direct 0 0 D 127.00.1 InLoopBack0 
127.255.25$.255/32 Direct 0 0 D1270.0.1 InLoopBack0 
255.255.255.255/32 Direct 0 0 D 1270.0.l InLoopBack0 


在 Rl 的 G0/0/0 接口 抓 取 数据 报 文 如 图 2-16 所 示 ， 由 R1 发 送 给 R3 的 Response 报 
文中 的 Next-hop 字段 ， 下 一 跳 地 址 为 R2 的 10.1.1.2。 因 此 ，R3 到 达 100.1.1.0 网 段 时 将 
直接 使 用 该 下 一 跳 地 址 ， 从 而 解决 了 次 优 路 径 的 问题 。 


> Frame 1678: 86 bytes on wire (688 bits), 86 bytes captured {688 bits) on interface 9 
>» Ethernet II, Src: HuaweiTe 17:5f:18 (680:e@:fc:17:5f:18), Dst: IPv4mcast 09 (861:66:5e: 0 80; 69) 
» Internet Protocol Version 4, Src: 106.1.1.1, Dst: 224.0.6.9 
> User Datagram Protocol, Src Port: 529 (528), Dst Port: 528 (520) 
v Routing Information Protocol 
Command: Response (2) 
Version: RIPv2 (2) 
>» IP Address; 10.1.1.86, Metric: 1 
v IP Address: 100.1.1.0, Metric: 1 
Address Family: IP (2) 
Route Tag: 9 
IP Address: 106.1.1.0 
Netmask: 255.2595.255.6 


Next hop: 10.1.1.2 下 一 跳 地 址 为 R2 的 物理 接口 地 址 
Metric: 1 . 


图 2-16 在 Rl 接口 抓 取 数据 包 的 截图 





Next-hop 有 两 种 地 址 形式 ， 一 种 为 全 0 地址 形式 (如 0.0.0.0) ， 另 外 一 种 为 非 全 0 地 址 
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形式 (如 10.1.1.2) 。 如 果 为 全 0 的 地 址 时 ， 路 由 表 中 的 目标 网 段 下 一 跳 地 址 应 该 是 发 送 
Response 报 文 的 源 IP 地 址 ; 如 果 为 非 全 0 的 地 址 时 ,路 由 表 中 的 目标 网 段 下 一 跳 地 址 则 为 
该 地 址 。 


总 省 : 

如 图 2-15 所 示 ，R1 与 R2 不 运行 任何 IGP 协议 ，R1 的 路 由 表 中 有 一 条 静态 路 由 到 达 
100.1.1.0， 下 一 跳 地 址 为 10.1.1.2， 如 果 将 该 静态 路 由 引入 RIP 协议 中 ， 那 么 R3 的 路 由 表 
中 下 一 跳 地 址 是 哪个 地 址 ? 


2.7 思考 题 


， 如 果 非 直 连 的 网 络 不 可 达 了 ， 请 结合 RIP 计时 器 分 析 RIP 协议 的 工作 过 程 。 
.RIP 为 什么 需要 在 主 类 网 络 的 边界 自动 汇总 ? RIPvl 和 RIPv2 有 什么 区 别 ? 
. 如何 配 置 路 由 器 ， 使 其 互 连 RIPv1 和 RIPv2 的 网 络 来 保证 全 网 路 由 可 达 ? 
.RIPv1 是 如 何 产生 32 位 主机 路 由 的 ? 解释 原因 。 

， RIPng 与 RIP 的 区 别 是 什么 ? 

， 在 2.6.2 节 中 ，R3 的 路 由 表 中 下 一 跳 地 址 是 什么 ? 


仆人 mi 一 
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第 三 章 


OSPFv2 及 OSPFv3 


本 章 阐述 了 0SPF 协议 的 工作 机 制 ， 并 针对 LSA 各 种 类 型 结合 具体 场景 做 了 分 析 ， 
包括 0SPF 的 区 域 结构 防 环 等 问题 。0SPFv3 是 0SPF 的 升级 版 本 ,工作 在 IPv6 下 , 它 解 决 
了 0SPFv2 协议 设计 中 的 部 分 不 足 。 本章 从 0SPFv2 开始 阐述 , 在 章节 末尾 介绍 了 OSPFv3， 
并 将 其 和 0SPFv2 做 了 对 比 。 


本 章 包含 以 下 内 容 : 


OSPF 邻居 关系 的 建立 和 数据 库 同步 
LSA 类 型 1/2/3/4/5/7 

区 域 结构 分 析 和 Vlink 解决 方案 
OSPF 的 多 种 区 域 类 型 
OSPF 的 路 由 控制 方法 
OSPFv3 和 OSPF 的 区 别 
OSPFv3 配置 


Ooocoogoocoo0o 
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3.1 OSPF 邻居 关系 的 建立 及 握手 过 程 


3.1.1 概述 


OSPF (Open Shortest Path First) 是 由 IETF 开发 的 广泛 使 用 的 链 路 状态 路 由 协议 ， 
它 使 用 Dijkstra 算法 计算 路 由 ， 快 速 收敛 ， 层 次 化 多 区 域 结构 设计 ， 多 部 署 在 中 大 型 
园区 、 企 业 或 城 域 网 络 中 。 目 前 ，OSPF 虽 比 其 他 IGP 协议 复杂 ， 但 因 其 成 熟 性 而 广 
为 使 用 。 

OSPF 当前 版 本 是 v2， 主 要 标准 是 RFC1583 和 RFC2328。OSPFv3 主要 用 在 IPv6 
协议 中 ， 参 考 标准 主要 是 RFC5340。 


3.1.2 ”邻居 发 现 


OSPF 通过 Hello 报 文 发 现 和 维持 邻居 关系 。 邻 居 关 系 不 同 于 邻接 关系 ， 只 有 达到 
2-Way 状态 的 路 由 器 才 算 邻居 关系 (双向 邻居 关系 ) 建立 起 来 。 OSPF 在 所 有 启用 OSPF 
协议 的 接口 发 送 Hello 报 文 ， 不 同 的 网 络 上 ，OSPF 发 送 Hello 报 文 的 间隔 和 目的 地 址 
不 同 。 
。 在 广播 和 点 到 点 网 络 中 ，Hello 是 每 10s 发 送 一 次 ， 在 NBMA 和 P2MP 网 络 中 
每 .30s: 发 送 一 次 。 

。 在 广播 、 点 到 点 和 点 到 多 点 的 网 络 中 ，OSPF 通过 组 播 的 Hello 报 文 自 动 发 现 邻 
居 ， 组 播 目 的 地 址 : 224.0.0.5( 所 有 OSPF 路 由 器 )。 而 在 NBMA 网 络 中 ， 需 
手工 指定 邻居 。 


说 明 : 

目前 网 络 很 多 都 是 Ethernet， 上 默认 的 OSPF 网 络 类 型 是 Broadcast， 而 PPP/HDLC/FrameRelay 
点 到 点 子 口 则 被 看 成 是 OSPF P2P 类 型 网 络 ， 非 广播 的 FrameRelay (物理 或 多 点 类 型 子 口 )、 
X.25、ATM 等 可 以 配置 为 OSPF NBMA 或 P2MP 网 络 类 型 。 


在 建立 邻居 关系 时 ， 路 由 器 必须 对 Hello 报 文中 携带 的 “参数 ”达成 一 致 ， 对 收 到 
的 Hello 报 文中 的 “参数 ”进行 检查 比 对 ， 以 下 是 比 对 内 容 。 

。 ”Hello/Dead 发 送 时 间 间 隔 : 时 间 一 致 才 能 建立 邻居 关系 。 若 Hello 间隔 为 10s， 
而 Dead 间隔 默认 是 Hello 间隔 的 4 倍 。 

。 区 域 IDP: 相 邻 的 路 由 器 在 同一 区 域 才能 建立 邻居 关系 , 检查 OSPF 头 中 的 Area 
ID，Area ID 出 现在 所 有 OSPF 报 文 的 头 部 而 非 Hello 报 文 中 。 图 3-1 是 OSPF 
头 及 其 载荷 的 内 容 。 

e 区域 类 型 : 区 域 类 型 要 一 致 。 判 断 区 域 类 型 是 否 一 致 要 参考 Hello 报 文中 的 
Option 位 ， 其 中 ，E 和 N/P 置 位 代表 的 含义 不 同 。 参 考 表 3-1， 不 同 的 Option 
置 位 决定 了 不 同 的 区 域 类 型 。 
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四 Internet Protocol Version #4, Src: 12.1.1.1 (12,1.1.1), Dst: 224.0.0.5 (224.0:0.5) 
Open shortest parh First 
GB OSPF neader 
Version: 2 
Message Type: Hello Packer (1) 
Packet Lengrhi 48 
Source OSPF Router: 1.1.1.1 (1.1.1.1) 
Area ID: 0.0.0.1 (0.0.0.1) 
Checksum: Oxe693 [correct] 
Auth Type: Null (0) 
Aurh Dara (none): 0000000000000000 
BE OSPF nello Packet 

Network Mask; 255,255.255.0 (255,255,255.0) 
Hello inrerval [sec]: 10 

加 Options: Oxi2 (E) 
Router Priority: 1 
Rourer Dead interval [sec]: 40 
Designated Router: 0.0.0.0 (0.0,0,0) 
Backup Designatred Rourer;: 0.0.0.0 (0.0.0.0) 
Active Neighbor: 2.2.2.2 (2.2.2.2) 


图 3-1 Hello 报 文 





Stub 和 Totally Stub 类 型 区 域 置 位 相同 ， 同 理 ，NSSA 和 Totally NSSA 类 型 区 域 置 位 相同 。 


。 认证 类 型 和 密 钥 一 致 ， 只 有 验证 通过 才能 建立 邻居 关系 ， 认 证 参考 后 面 章节 。 

e Router ID 无 冲突 : OSPF Router ID 是 可 以 手工 指定 或 系统 自动 选 定 的 , 优选 
Loopback 接口 。 直 连 路 由 器 要 建立 邻居 关系 时 ， 彼 此 间 Router ID 一 定 要 不 
一 样 。 


Router ID、Area ID 验证 信息 均 出 现在 OSPF 头 中 ， 而 Hello 间隔 、Dead 间 隐 和 网 络 掩 码 
则 出 现在 Hello 报 文中 。 网 络 掩 码 及 MTU 在 邻居 间 不 一 致 对 OSPF 邻居 关系 的 影响 在 后 文 
再 单独 阐述 。 


影响 OSPF 邻居 关系 建立 的 原因 可 包括 : Hello/Dead 间隔 不 一 致 , 直 连 路 由 器 Router 


3.1.3 ”邻居 关系 建立 过 程 


OSPF 邻居 的 建立 过 程 : 

e 三 步 握手 

。 Down、Init、Two-way 状态 

图 3-2 中 2-Way Received 代表 收 到 含 自己 Router ID 的 Hello 报 文 。 

场景 :A 一 B 两 台 路 由 器 ， 初 始 化 邻居 关系 建立 过 程 。 

A 接 收 B 的 Hello 报 文 过 程 中 ， 状 态 变化 过 程 如 下 。 

Down 状态 : 邻居 的 初始 状态 。 但 初始 时 ， 邻 居 的 Router ID 2.2.2.2 还 没有 出 现在 
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OSPF 邻居 列表 里 。 
十 一 一 一 一 十 
| Down | 
十 一 一 一 一 十 
% 
| \Start 
| 痊 + 一 一 一 一 一 一 一 + 
Hello | +———->| Atempt | 
Received | 多 十 
| 
二 一 一 一 一 十 之 一 十 | HelloReceived 
| mit |<-------- + 一 一 一 一 一 一 十 
+ 一 一 一 一 十 之 一 一 一 一 一 一 一 一 + 
| | 
| 2-Way | 1-Way 
| Received | Received 
| | 
+ 一 一 一 一 一 一 一 + | + 一 一 一 一 一 + 
| ExStart |<-—------ 二 一 一 一 一 一 一 一 >| 2-Way | 
++ 一 一 一 一 一 一 一 + + 一 一 一 一 一 + 





init 





2-Way 


图 3-3 A 和 B 的 邻居 建立 过 程 


Init 状态 : A 收 到 邻居 的 Hello 报 文 时 ， 若 该 Hello 报 文中 的 Active Neighbor 字 域 没 
有 包含 当前 路 由 器 的 Router ID 1.1.1.1， 则 A 中 邻居 的 状态 为 Init。 


说 明 : 
ActiveNeighbor 字 域 请 参考 图 3-1。 


2-way 状态 : A 再 次 收 到 Hello 报 文 时 ， 此 次 Hello 报 文中 的 Active Neighbor 字 域 
中 有 自己 的 Router ID 1.1.1.1， 如 图 3-2 所 示 ， 这 时 路 由 器 进入 2-Way 状态 。 只 有 A 及 B 
的 邻居 都 进入 2-Way 状态 ， 才 代表 彼此 间 双 向 邻居 建立 起 来 。 
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AR | 车间 OSPFvV2 及 OSFFV 1 
说 明 : 
邻居 表 中 邻居 处 于 Init 状态 仅 代 表单 向 邻居 建立 起 来 ，2-Way 代表 双向 邻居 已 建立 
起 来 。 


3.1.4 ”邻接 关系 建立 过 程 


OSPF 路 由 器 在 双向 邻居 关系 建立 完成 后 ， 开 始 建立 邻接 关系 。 在 广播 和 非 广播 
(NBMA) 网 络 中 ， 邻 接 关系 发 生 在 DR 和 BDR 选举 之 后 ， 在 其 他 网 络 类 型 中 没有 DR/ 
BDR 选举 过 程 , 邻居 关系 建立 完成 后 即 开 始 建立 邻接 关系 。 邻接 建立 过 程 如 图 3-4 所 示 。 


十 一 一 一 一 一 一 一 十 
| ExStart | 
+ 一 一 一 一 一 一 一 + 
| 
NegotiationDone | 
十 一 六 寺 一 = 一 一 一 一 一 一 十 
| | Exchange | 
本 一 一 十 一 一 一 一 一 一 一 一 十 
| 
Exchange | 
Done | 
十 一 一 一 一 十 | + 一 一 一 一 一 一 一 ， 
| Full |<--------- + 一 一 一 一 一 >| Loading | 
+ 一 一 一 一 十 之 一 十 二 一 一 一 一 一 一 一 + 
| LoadingDone | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


图 3-4 ”邻接 建立 过 程 一 一 状态 机 
邻接 关系 是 邻居 路 由 器 间 为 完成 LSDB 同步 而 发 生 的 LSA 交互 过 程 ,也 是 邻居 路 由 
器 间 初 次 通告 LSA、 人 快速 同步 的 过 程 。 它 是 LSA 泛 洪 的 一 种 方式 ， 同 步 完 成 之 后 ， 邻 
居 路 由 器 间 最 终 是 FULL 状态。 但 不 是 OSPF 网 络 中 的 每 一 对 邻居 路 由 器 间 都 会 形成 邻 
接 关 系 。 在 广播 或 非 广播 (NBMA) 网 络 上 ，DRother 路 由 器 彼此 间 会 一 直 保 持 在 2-Way 
的 状态 ， 而 它们 同 DR/BDR 间 是 FULL 邻接 关系 。 在 其 他 OSPF 类 型 的 网 络 上 ， 不 需要 
DR/BDR， 和 邻接 关 系 发 生 在 2-Way 状态 后 。 


邻接 关系 状态 迁移 过 程 如 下 。 
。 信息 交换 初始 状态 〈ExStart): 在 这 一 状态 下 ， 本 地 路 由 器 和 邻居 路 由 器 间 互 
传 空 DD 报 文 。 


4 确定 主 /从 关系 
4 确定 DD 的 初始 序列 号 
4 比较 接口 MTU (可 选 ) 
在 ExStart 状态 下 ， 路 由 器 互相 发 送 的 空 DD 报 文 中 置 I (Initialize)，M (More) 及 
MS (Master/Slave) 位 。 
I 位 : 初始 化 位 ， 仅 头 两 份 DD 报 文中 置 该 位 ， 代 表 同 步 过 程 开始 。 
M 位 : 如 果 M 位 =0， 则 代表 后 续 DD 报 文中 没有 LSA Summary 要 传 。 任 何 一 方 M 
位 不 为 0，Master 就 要 继续 发 送 DD 报 文 ，Slave 收 到 之 后 ,不论 是 否 还 有 LSA Summary 
要 传递 ， 一 定 要 回应 DD 报 文 。 
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M/S: 初始 双方 均 认定 自己 是 Master, 所 以 M/S 均 置 位 ,双方 收 到 对 方 的 DD, Router 
ID 高 的 一 方 为 Master， 其 后 续 DD 报 文中 , M/S 会 一 直 置 位 。Master 会 一 直 发 送 DD 报 
文 ，Slave 回应 DD 报 文 ，Slave 回应 的 DD 报 文 是 对 Master 发 送 的 DD 报 文 的 确认 。 此 
过 程 持续 到 双方 的 LSA 头 都 交换 完成 。 

图 3-5 中 , I 位 、M 位 及 M/S 位 均 置 位 。 图 中 不 协商 MTU， 所 以 MTU 默认 为 0。 


SOpen shortest Path First 
田 OSPF Header 
BOsPF DB Description 
Interface MTU: 0 
S options: Ox02 (E) 
0. .= DN: Not set 
i a 
-. 0. .... = DC: Demand Circuits are NOT supported 
:+0 .... = 上 上: The packet does NOT contain LLS data block 
“0... = NP: NSSA is NOT supported 
。.0.. = MC: NOT Multicast Capable 
.1. = E: External Routing Capability 
-0 = MT: NO Multi-Topology Routing 
DB Descriprion: Ox07 (I, M, MS) 
0... = R: OOBResync bit is NOT set 
» IT. .= I: Init bit is SET 
.1. = M: More bit is SET 
.1 = MS: Master/Sslave bit is SET 
pp Sequence: 510 


图 3-5 空 DD 报 文 格式 





。 信息 交换 状态 (Exchange): 选举 出 Master 后 ，Slave 路 由 器 向 Master 回 送 DD 
报 文 ， 其 中 包含 LSDB 中 的 LSA 头 LSA summary) 列表 ， 并 使 用 Master 的 
序列 号 。 Master 也 把 自己 的 LSA 头 列表 用 DD 发 送 , 序列 号 增加 1, 同时 , Slave 
收 到 后 , 会 回应 相同 序列 号 的 DD 报 文 。 任 何 一 侧 只 要 还 有 未 传递 完 的 LSA 头 ， 
Master 就 一 定 要 产生 DD 报 文 并 由 Slave 回应 。Exchange 阶段 通过 这 种 可 靠 的 
DD 交互 ， 完 成 快速 交换 LSA 头 。 


说 明 : 
Master 和 Slave 的 角色 分 工 不 同 ，Master 是 由 RID 高 的 路 由 器 充当 ， 负 责 发 送 序列 号 递 
增 的 DD 报 文 , 如 果 Master 没 能 收 到 回应 , 则 Master 间隔 5s 重 传 该 DD 报 文 , 直至 收 到 Slave 














的 DD 报 文 。 
ExStart D-D (Seq=x, » 1 M， Master) 
一 一 一 一 一 一 一 一 一 -—> 
8 D-D (Seq=y, I, M, Master) ExStart 
Exchange D-D'(Seq= yY M， Slave) 
一 一 一 一 一 一 一 一 一 > 
D-D (Seq=y+1, M, Master) Exchange 
ed oe we ee ee ve ee ep me ee ee ep ee ep a Om i en mm mo ee i a 
D-D (Seq=y+1, M, Slave) 
es 一 — > 
D-D (Seq=y+n, Master) 
< PT aa 和 as 5 OO En aa En ny 下 < Ga aa Sa Us 4 二 Er 本 


D-D (Seq=y+n, Slave) 
图 3-6 ExStart 及 Exchange 过 程 
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图 3-6 中 ， 可 知 Exchange 过 程 中 ，DD 交互 过 程 是 可 靠 的 。Master 发 送 seq=y+tn 的 
报 文 ，Slave 回应 seq=y+n 的 报 文 ，Master 和 Slave 的 DD 报 文中 M 都 不 置 位 ，Exchange 
过 程 才 结束 。 


Loading = 一 = 一 一 = 一 二 二 二 一 一 一 三 一 一 一 一 一 一 一 一 一 一 一 一 一 > 
LS Request Full 
ep et ge ie ee ee et EE pe ee ee ee em ee me mye es In ep np pe > 3 
LS Update 
< Sa 0 i i Be 
LS Request 
oe ee ee ee ee ee ee i ee a a lip re ci ee ED ee er ee i eh re dom ee me Cs 
LS Update 
Full < 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 





图 3-7 LSReq，LSU，LSAck 


。 ”信息 加 载 状态 〈Loading): 在 这 一 状态 下 ， 本 地 路 由 器 将 会 向 它 的 邻居 路 由 器 发 
送 链 路 状态 请 求 数据 包 LSReq， 以 请 求 本 地 LSDB 中 没有 的 LSA。 收 到 LSReq 的 
报 文 ， 路 由 器 会 用 包含 完整 的 被 请 求 的 LSA 的 LSU 做 回应 。 请 求 方 收 到 LSU 后 ， 
如 果 无 误 ， 则 LSAck 确认 该 LSU。 一 份 LSAck 可 同时 为 多 份 LSUpdate 做 确认 。 

。 ”完全 邻接 状态 〈Ful): 在 FULL 状态 下 ， 和 邻居 路 由 器 之 间 已 完成 同步 过 程 ， 建 
立 起 完全 邻接 关系 。 


3.1.5 ”影响 邻居 关系 及 邻接 关系 建立 的 问题 


以 下 几 种 原因 可 能 影响 到 邻居 关系 的 建立 ， 也 可 能 影响 到 邻接 关系 的 建立 。 

1. 主 卫 网 络 和 掩 码 

Hello 报 文中 ， 携 带 有 接口 主 IP 网 络 的 掩 码 ，Hello 报 文中 通过 掩 码 和 报 文 的 源 卫 
地 址 ， 可 判定 邻居 双方 是 否 在 同一 个 主 IP 网 络 ， 主 IP 网 络 是 接口 配置 的 第 一 个 卫 地 址 
网 络 。 图 3-8 中 ，R1 通告 的 OSPF 报 文 的 源 IP 地 址 是 13.1.1.1， 掩 码 是 24， 主 IP 网 络 
是 13.1.1.0/24， 同 理 R2 的 主 IP 网 络 是 12.1.1.0/24。 如 果 这 条 链 路 是 点 到 点 链 路 ， 则 R1 
和 R2 能 建立 邻居 关系 。 如 果 是 广播 网 络 类 型 , 则 不 能 建立 邻居 关系 。 报 文 如 图 3-9 所 示 。 


RI 入 
13.1.1.1/24 12.1.1.2/24 
12.1.1.1/24 sub 13.1.1.2/24 sub 


图 3-8 主 卫 网 络 不 一 致 的 路 由 器 Rl1 和 R2 


外 Interner Protocol Version 4, Src: 12.1.1.2 (12.1,1.2), Dst: 224,.0:0,5 (224.0.0.5) 
Sopen Shorrest Path First 
BH OSPF Header 
B OSPF Hello Packet 
Network Mask: 255.255.255.0 (255.255.255.0) 
Hello Intrerval [sec]: 10 
options: Ox02 (E) 
Rourer priority: 1 
Router Dead Interval [sec]: 40 
Designated Router: 12.1.1.2 {12.1.1.2) 
Backup Designated Router: 12.1. 和 > (12.1.1.1) 
Active Neighbor: 1.1.1.1 (1.1.1 


妈 3-9 ”Hello 报 文 
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图 3-8 中 ， 如 果 直 连 链 路 是 以 太 网 ， 当 R1 收 到 R2 的 Hello 报 文 后 ， 根 据 报 文 的 源 

IP 地 址 和 Hello 中 的 接口 掩 码 ， 可 算出 R2 的 主 卫 网 络 和 Rl 的 主 卫 网 络 二 者 不 一 致 ， 

由 于 OSPF 设计 要 求 接 在 同一 个 广播 网 络 上 的 节点 的 主 IP 网 络 由 虚 节 点 来 表达 , 虚 节 点 

不 允许 网 络 上 有 多 个 主 IP 网 络 ， 所 以 建立 邻居 关系 时 ， 不 允许 主 人 P 网 络 不 一 致 的 网 络 

节点 间 建 立 邻 居 关 系 。 
图 3-8 中 ， 默 认 情 况 下 ，R1 和 R2 间 是 点 到 点 类 型 的 网 络 ， 在 OSPF 中 ， 点 到 点 网 

络 类 型 的 节点 间 都 可 以 独立 表达 自己 接口 的 所 有 网 络 (使 用 stub 类 型 link), 彼此 间 没 有 

关系 ,建立 邻居 关系 没有 限制 ， 所 以 R1 和 R2 间 建 立 邻 居 关 系 时 既 不 检查 掩 码 ， 也 不 检 

查 源 地 址 ， 能 正常 建立 邻居 关系 。 


结论 : 
OSPF 网 络 类 型 ， 如 果 是 广播 或 非 广 播 (NBMA) 网 络 ， 则 接 在 该 网 络 上 的 所 有 节点 上 
的 主 IP 网 络 必须 一 致 才能 建立 邻居 关系 。 如 果 网 络 类 型 是 P2P 或 PPMP， 则 没有 此 要 求 。 


2. MTU 不 一 致 

OSPF 在 ExStart 状态 下 会 检查 邻居 彼此 的 接口 MTU，MTU 决定 了 发 送 的 OSPF 报 
文大 小 ， 同 时 也 决定 了 可 接收 的 OSPF 报 文 大 小 。 

OSPF 在 邻接 关系 处 在 ExStart/Exchange 态 时 , 缺 省 情况 下 DD 报 文中 Interface MTU 
为 0，OSPF 既 不 填充 接口 实际 MTU 值 ， 也 不 执行 MTU 一 致 性 检查 。 如 果 通 信 双 方 接 
口 配 置 的 MTU 不 一 致 ,OSPF 在 同步 LSDB 时 可 能 因 MTU 不 一 致 而 无 法 进入 FULL 状态 。 

在 图 3-8 中 , 如 果 R1 和 了 R2 的 接口 MITU 不 一 致 , R1 接 口 MTU=1490, R2 接 口 MTU=1500， 
并 且 OSPF 接口 MTU 填充 及 检查 功能 被 开启 ， 在 数据 库 同 步 过 程 中 ， 若 R1 收 到 大 小 为 
1500Byte 的 DD 或 LSU 或 LSReq 报 文 ，OSPF 在 任 一 状态 下 都 将 无 法 处 理 超出 其 接收 能 力 
的 报 文 。 例 如 ， 者 收 到 是 DD 报 文 ， 则 R1 忽略 该 报 文 《如果 R2 是 Master)，R1 不 会 回应 
DD 报 文 ，R2 会 因 超时 收 不 到 Slave R1 的 DD 报 文 而 停留 在 该 状态 〈Exchange 状态 )。 

当然 ，OSPF 也 可 能 基于 同样 的 原因 而 停留 在 Loading 状态 。 


缩 论 : 
OSPF 在 建立 邻居 关系 后 ,在 同步 数据 库 时 , 若 路 由 器 停留 在 ExStart 或 Exchange 或 Loading 
状态 ， 多 是 由 于 MTU 不 匹配 而 导致 的 。 


华为 使 用 ospf mtu-enable 命令 可 开启 接口 填充 及 检查 MTU。 

由 于 其 他 设备 制造 商 可 能 会 使 用 不 同 的 MTU 缺 省 设置 ， 所 以 为 了 保证 一 致 ， 可 以 
设置 接口 发 送 DD 报 文 时 MTU 值 不 填充 及 检查 ， 为 缺 省 值 0〈 华 为 默认 行为 )， 但 带 来 
的 风险 是 同步 过 程 中 可 能 会 停留 在 某 个 状态 。 


沪 洛 : 

(1) 如 果 建 立 邻居 的 双方 , 一 侧 是 华为 设备 , 默认 没有 开启 MTU 检查 , 但 MTU 为 1500; 
一 侧 是 第 三 方 设备 默认 开启 MTU 检查 ， 接 口 MTU 为 1500， 能 否 正 常 建立 邻接 关系 ? 

(2) 如 果 华 为 设备 接口 MTU 值 为 1400， 同 时 没有 开启 MTU 检查 ， 而 对 方 开 启 MTU 
检查 ， 接 口 MTU 为 1500， 和 邻接 关系 能 否 建立 起 来 ? 
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3.1.6 ”OSPF 网 络 类 型 


3.1.6.1 网 络 类 型 分 类 

OSPF 接口 根据 链 路 类 型 可 分 成 4 种 网 络 类 型 : 

e “Point-to-point networks 

® Broadcast networks 

e。 NonBroadcast Multi-Access (NBMA) networks 

e “Point-to-Multipoint networks 

不 同 的 网 络 类 型 ， 可 使 OSPF 按 不 同方 式 来 工作 ， 具 体 见 表 3-2 所 示 。 


表 3-2 网 络 类 型 分 类 


当 链 路 层 协议 是 Ethernet 时 ， 缺 省 情况 下 ，OSPF 认为 网 络 类 型 是 Broadcast。 
| 在 该 类 型 的 网 络 中 : 
广播 类 型 ”| 通常 以 组 播 形式 发 送 Hello 报 文 、LSU 报 文 和 LSAck 报 文 。 其 中 ，224.0.0.5 的 组 播 
地 址 为 OSPF 设备 的 预 留 卫 组 播 地 址 ;224.0.0.6 的 组 播 地 址 为 OSPF DR/BDR(Backup 
| Designated Router) 的 预 留 卫 组 播 地 址 。 以 单 播 形 式 发 送 DD 报 文 和 LSR 报 文 
“| 当 链 路 层 协 议 是 帧 中 继 、ATM 时 ， 缺 省 情况 下 ，OSPF 认为 网 络 类 型 是 NBMA。 
NBMA ,类 型 | 在 该 类 型 的 网 络 中 ， 以 单 播 形式 发 送 协议 报 文 《Hello 报 文 、DD 报 文 、LSR 报 文 、 
TS LSU 报 文 、LSAck 报 文 ) 
”| 没有 一 种 链 路 层 协议 会 被 缺 省 地 认为 是 Point-to-Multipoint 类 型 。 点 到 多 点 必须 是 由 
“| 其 他 的 网 络 类 型 强制 更 改 的 , 常用 做 法 是 将 非 全 连通 的 NBMA 改 为 点 到 多 点 的 网 络 。 
| 在 该 类 型 的 网 络 中 : 
“” 以 组 播 形 式 (224.0.0.5) 发 送 Hello 报 文 。 
| 以 单 播 形式 发 送 其 他 协议 报 文 (DD 报 文 、LSR 报 文 、LSU 报 文 、LSAck 报 文 ) 
| 当 链 路 层 协 议 是 PPP、HDLC 和 FrameRelay( 仅 P2P 类 型 子 接口 ) 时 ， 缺 省 情况 下 ， 
OSPF 认为 网 络 类 型 是 P2P。 
在 该 类 型 的 网 络 中 ， 以 组 播 形式 (224.0.0.5) 发 送 协议 报 文 “Hello 报 文 、DD 报 文 、 
LSR 报 文 、LSU 报 文 、LSAck 报 文 ) 


(1) Broadcast 网 络 是 以 太 网 等 网 络 上 的 默认 网 络 类 型 ， 它 对 网 络 的 要 求 是 接 在 网 络 
上 的 所 有 节点 直接 建立 全 互联 的 邻居 ， 并 自动 选举 DR， 完 成 和 DR 的 同步 。 选 举 DR 需 
要 引入 Wait 时 间 ， 所 以 Broadcast 网 络 上 的 邻居 震荡 时 网 络 收敛 时 间 较 长 。 故 很 多 园区 
网 络 中 ， 如 果 网 段 只 有 两 个 OSPF 节点 ， 则 使 用 Point-to-Point 网 络 类 型 去 替换 需要 选择 
DR 的 Broadcast 网 络 类 型 ， 以 提高 收敛 速度 。 

(2) Point-to-Point 这 种 网 络 类 型 需要 工作 在 只 有 两 个 节点 的 环境 中 ， 彼 此 之 间 不 需 
要 选择 DR， 建 立 邻 居 关 系 后 ， 直 接 开 始 数据 库 同步 ， 收 和 敛 较 快 。 在 生产 网 络 中 ， 园 区 
网 中 的 核心 层 和 汇聚 层 之 间 往 往 使 用 多 个 点 到 点 类 型 链 路 来 取代 VLAN 中 的 Broadcast 
类 型 的 以 太 网 链 路 。 

(3) NBMA 这 种 网 络 类 型 是 OSPF 在 FR/ATM 网 络 上 的 默认 网 络 类 型 。 虽 然 FR 和 
ATM 网 络 也 是 一 种 多 点 网 络 ， 但 却 无 法 像 以 太 网 一 样 ， 使 用 组 播 /广播 地 址 发 单 份 报 文 
给 所 有 其 他 节点 ， 所 以 被 称 为 NBMA 网 络 。 这 种 网 络 需 要 使 用 手工 方式 来 指定 邻居 ， 不 
能 使 用 组 播 自 动 发 现 邻居 。 使 用 Peer 命令 相互 指定 邻居 的 接口 卫 以 建立 邻居 关系 ， 并 
仅 以 单 播 的 形式 接收 和 发 送 报 文 (所 有 报 文 都 是 单 播 )。NBMA 和 Broadcast 类 型 网 络 之 
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间 的 区 别 只 是 发 现 邻 居 的 方式 不 一 样 ，LSDB 及 计算 拓扑 的 方式 是 一 样 的 ， 甚 至 计算 出 
的 路 由 都 是 一 样 的 。 图 3-10 中 ， 如 果 DR 在 R1, 无 BDR，FR 网 络 上 的 OSPF 网 络 类 型 
是 NBMA 和 Broadcast， 在 路 由 计算 上 没有 什么 区 别 ， 路 由 表 及 拓扑 表达 都 一 样 。R2 和 
R3 间 没 有 直 连 PVC， 所 以 R2 和 R3 间 没 有 OSPF 邻居 关系 (OSPF 不 能 跨 路 由 器 建立 
OSPF 邻居 关系 )， 但 R2 执行 路 由 计算 时 ， 计 算出 到 10.1.3.0/24 网 络 ， 其 下 一 跳 是 
10.1.123.3， 这 和 广播 型 网 络 结果 一 样 。 

NBMA 这 种 网 络 类 型 不 适宜 不 规整 的 非 广 播 网 络 拓 扑 ， 例如， 在 部 分 互联 网 络 或 不 
规则 网 络 拓扑 中 ，DR 的 位 置 难于 指定 。 如 图 3-11 所 示 的 场景 ，R1 到 RS 的 所 有 路 由 器 
都 通过 PVC 互联 ， 并 处 在 同一 个 IP 网 段 内 。 如 果 网 络 类 型 是 NBMA， 需 要 手工 指定 邻 
居 及 DR。DR 应 设 在 所 有 DRother 可 直接 同 其 建立 邻居 关系 的 位 置 ， 图 中 任何 路 由 器 成 
为 DR 都 不 合适 ， 除 非 重 新 设计 网 络 ， 使 用 子 接口 并 划分 出 多 个 IP 网 络 。 


10.1.1.0/24 
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10.1.2.0/24 10.1.3.0/24 
3-10 ”FR 下 的 OSPF 图 3-11 不 规则 的 〈 非 全 互联 的 ) FR 网 络 


(4) P2MP 网 络 类 型 同样 是 为 多 点 的 网 络 而 设计 的 一 种 网 络 类 型 。 它 的 最 大 好 处 就 
是 它 可 适用 于 任何 不 规则 的 网 络 ， 图 3-11 网 络 可 以 使 用 P2MP 网 络 类 型 ， 它 不 用 考虑 
DR 的 位 置 ， 因 为 P2MP 不 需要 DR， 它 把 网 络 看 成 任意 多 个 点 到 点 的 链 路 。 所 以 图 3-11 
中 , FR 网 络 有 4 条 PVC,OSPF P2MP 也 把 上 述 的 IP 网 络 看 成 由 4 个 OSPF 链 路 构成 的 ， 
图 中 有 4 个 OSPF 邻居 。 

OSPF 认为 使 用 P2MP 的 多 点 类 型 网 络 是 由 多 个 点 到 点 的 链 路 构成 ， 所 以 OSPF 画 
出 的 逻辑 拓扑 等 同 于 两 层 虚 连接 (PVC) 的 拓扑 ， 它 使 OSPF 的 3 层 拓 扑 等 同 于 2 层 的 
FR 拓扑 。 这 明显 区 别 于 OSPF 在 FR 上 的 其 他 网 络 类 型 NBMA。NBMA 按 广播 网 络 来 
计算 路 由 ， 而 P2MP 像 对 待 P2P 网 络 一 样 来 计算 路 由 ， 其 不 选择 DR， 所 以 建立 邻接 时 
速度 会 快 些 。 图 3-10 场景 中 ， 如 果 网 络 类 型 被 改 成 P2MP，R2 上 看 到 R3 后 面 的 网 络 
10.1.3.0/24， 路 由 表 中 的 下 一 跳 是 HUB 点 ，Next-hop 为 10.1.123.1。 因 为 中 间 的 FR 网 络 
被 P2MP 理解 成 两 个 P2P 链 路 。 逻 辑 拓扑 是 R2 连接 R1，R1 连接 R3。R2 访问 R3, 一 
定 要 经 过 Rl。 

3.1.6.2 ”各 种 网 络 类 型 互 连 

OSPF 下 不 同 网 络 类 型 的 接口 间 通 过 Hello 报 文 建立 邻居 关系 ， 由 于 Hello 报 文中 没 
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有 网 络 类 型 相应 的 参数 ， 不 同 接口 网 络 类 型 的 邻居 间 是 可 以 正常 建立 邻居 关系 的 ， 但 需 
要 注意 的 是 调整 Hello 和 Dead 间隔 为 一 致 才 可 以 。 默 认 NBMA 和 P2MP 的 Hello 时 间 
都 为 30s，P2P 和 Broadcast 的 Hello 时 间 都 为 10s。 

NBMA 这 种 网 络 类 型 是 个 例外 ， 它 不 能 同 其 他 几 种 网 络 类 型 来 建立 邻居 关系 ， 原 因 
是 NBMA 这 种 网 络 只 支持 单 播 形 式 的 报 文 , 而 其 他 几 种 网 络 类 型 的 Hello 报 文 全 是 以 组 
播 方式 工作 的 。 

Broadcast 和 P2P 这 两 种 网 络 类 型 可 以 相互 建立 邻居 关系 ， 可 以 完成 数据 库 同步 ， 但 
却 无 法 计算 出 对 方 的 路 由 ， 原 因 是 网 络 类 型 不 一 致 ，OSPF 在 画 二 者 逻辑 拓扑 时 ，Broadcast 
需要 连接 到 虚 节 点 ， 而 P2P 网 络 需要 和 邻居 节点 直 连 ， 在 逻辑 拓扑 上 ， 二 者 无 法 连接 到 
一 起 ， 所 以 计算 路 由 时 ， 互 相 都 无 法 算出 各 自 节点 后 面 的 路 由 。 

例如 ， 图 3-10 中 ,假如 Rl 网 络 类 型 为 P2MP，R2 和 R3 都 为 P2P， 调 整 计时 器 后 ， 
可 以 建立 OSPF 邻居 关系 ， 网 络 上 可 以 互相 看 到 彼此 的 路 由 。 因 为 二 者 在 逻辑 拓扑 的 表 
达 上 都 视 网 络 为 点 到 点 链 路 。 各 种 网 络 互 联 的 类 型 见 表 3-3 所 示 。 























表 3-3 OSPF 网 络 类 型 互联 
, NBMA 只 能 和 同 


邻居 关系 






建立 
P2MP+Broadcast Ei 
司马 


”邻居 


调整 间隔 后 可 以 无 法 计算 出 对 方 路 由 
P2MP+P2p | 调整 间隔 后 可 以 
Broadcast+P2P 无 法 计算 出 对 方 路 由 


注 : *Hello 和 Dead 间隔 一 致 即 可 。 


3.2 ”数据 库 同步 及 泛 洪 机 制 


3.2.1 ”OSPF 报 文 结构 


3.2.1.1 报 文 类 型 

OSPF 共有 5 种 类 型 的 协议 报 文 。 

Hello 报 文 : 周期 性 发 送 ， 用 来 发 现 和 维持 OSPF 邻居 关系 。 

DD 报 文 (DataBase Description Packet): 描述 了 本 地 LSDB 的 摘要 信息 ， 用 于 两 台 
路 由 器 进行 数据 库 同步 。 

LSR 报 文 (Link State Request Packet): 向 对 方 请 求 所 需 的 LSA， 只 有 在 双方 成 功 开 
始 交 换 DD 报 文 后 才 会 向 对 方 发 出 LSR 报 文 。 

LSU 报 文 (Link State Update Packet): 向 对 方 发 送 其 所 需要 的 LSA 或 者 泛 洪 自己 更 
新 的 LSA。 

LSAck 报 文 (Link State Acknowledgment Packet): 用 来 对 收 到 的 LSA 进行 确认 。 

OSPF 工作 在 IP 层 ， 是 个 可 靠 的 协议 ， 协 议 内 部 包含 确认 机 制 。OSPF 报 文中 不 需 
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要 确认 的 报 文 有 Hello 和 LSAck 报 文 。 
3.2.1.2”QOSPF 鬼 文 头 
OSPF 报 文 头 格式 如 图 3-12 所 示 。 





a > 





图 3-12 ”OSPF 报 文 头 格式 


Version: 8 位 OSPF 的 版 本 号 。 对 于 OSPFv2 来 说 ， 其 值 为 2; 对 OSPFv3 来 说 ， 其 
值 为 3。 
Type: 8 位 OSPF 报 文 的 类 型 。 
1: Hello 报 文 ; 
2: DD 报 文 ; 
3: LSR 报 文 ; 
4: LSU 报 文 ; 
5: LSAck 报 文 。 
Packet length: 16 位 ，OSPF 报 文 的 总 长 度 ， 包 括 报 文 头 在 内 ， 单 位 为 Byte。 
Router ID: 32 位 ， 发 送 该 报 文 的 路 由 器 标识 。 
Area ID: 32 位 ， 发 送 该 报 文 的 路 由 器 所 属 区 域 。 
Checksum: 16 位 ， 包 含 除 了 认证 字段 的 整个 报 文 的 校 验 和 。 
AuType: 16 位 ， 验 证 类 型 如 下 。 
0: 不 验证 ; 
1: 简单 明文 认证 ; 
2: MD5 认证 。 
Authentication: 64 位 ， 其 数值 根据 验证 类 型 而 定 。 
0: 不 含 验证 信息 。 
1: 此 字段 为 明文 密码 ; 
2: 此 字段 包括 Key ID、MD5 或 SHA256 的 验证 数据 长 度 和 序列 号 的 信息 。Hash 
验证 数据 添加 在 OSPF 报 文 末 尾 ， 不 包含 在 OSPF 头 中 的 Authentication 字段 中 。 
3.2.1.3 ”Hello 报 文 
Hello 报 文 格式 如 图 3-13 所 示 。 
eNetwork Mask: 32 位 ， 发 送 Hello 报 文 的 接口 所 在 网 络 的 掩 码 。 
。 Hello Interval: 16 位 ， 发 送 Hello 报 文 的 时 间 间 隔 。 
。 ”Options: 8 位， 可 选项 ， 含 义 同 OSPF 头 中 一 致 。 
。 Rtr Pri; 8 位 ，DR 优先 级 ， 默 认为 1， 如 果 为 0， 则 路 由 器 不 能 参与 DR 或 BDR 
的 选举 。 
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图 3-13 ”Hello 报 文 格式 


e ”RouterDeadInterval: 32 位 ， 邻 居 失 效 时 间 。 如 果 在 此 时 间 内 未 收 到 邻居 发 来 的 
Hello 报 文 ， 则 认为 邻居 失效 ， 并 从 邻居 表 里 移 除 该 邻居 ， 从 路 由 表 里 撤销 指向 
其 的 路 由 。 

e Designated Router: 32 位 ， 本 网 段 上 DR 路 由 器 的 接口 PP 地 址 。 

e Backup DesignatedRouter: 32 位 ， 本 网 段 上 BDR 路 由 器 的 接口 IP 地 址 。 

e ”Neighbor: 32 位 ， 邻 居 列 表 ， 用 Router ID 标识 。 记 录 当 前 路 由 器 已 知 的 链 路 
上 所 有 邻居 的 RID。 

3.2.1.4 DD 报 文 

DD 报 文 格式 如 图 3-14 所 示 。 
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图 3-14 DD 报 文 格式 


e Interface MTU: 16 位 ， 表 示 在 不 分 片 的 情况 下 ， 此 接口 最 大 可 发 出 的 IP 报 文 
长 度 。 华 为 默认 不 填充 接口 实际 MTU 值 ， 所 以 值 为 0。 

e。 ”Options: 含义 同 OSPF 头 中 一 致 。 

。 工 (Initialization) 位 : 1 位 ， 当 发 送 连续 多 个 DD 报 文 时 ， 如 果 这 是 第 一 个 DD 
报 文 ， 则 置 为 1， 否则 和 置 为 0。 

。 M (More) 位 : 1 位 ， 当 发 送 连续 多 个 DD 报 文 时 ， 如 果 后 续 的 DD 报 文中 不 
再 有 LSA 头 ， 则 置 为 0。 
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。 M/S (Master/Slave) 位 : 1 位 ， 当 两 台 OSPF 路 由 器 交换 DD 报 文 时 ， 首 先 需 
要 确定 双方 的 主 从 关系 ，RouterID 大 的 一 方 会 成 为 Master， 当 值 为 1 时 表示 发 
送 方 为 Master。 
。 DD Sequence Number: 32 位 , DD 报 文 序列 号 。 主 从 双方 利用 序列 号 来 保证 DD 
报 文 传输 的 可 靠 性 和 完整 性 。 
。 LSA Headers: 本 LSDB 中 LSA 的 头 。 
3.2.1.5 LSR 报 文 
LSR 报 文 格式 如 图 3-15 所 示 。 


0 过 15 31 


Link State ID 


Advertising Router 


3-15 LSRequest 报 文 


e LStype: 32 位，LSA 的 类 型 号 。 

。 Link State ID: 32 位 ,根据 LSA 中 的 LS Type 和 LSA Description 在 路 由 域 中 描 
述 一 个 LSA。 

e 。 Advertising Router: 32 位 ， 产 生 此 LSA 的 路 由 器 的 Router ID 。 

3.2.1.6 LSU 报 文 

LSU 报 文 格式 如 图 3-16 所 示 。 
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Number of LSASs 


图 3-16 LSU 报 文 格式 
Number of LSAs: 32 位 ， 表 示 此 Update 中 所 包含 的 LSA 的 数量 。 
LSAs: 多 个 完整 LSA 的 内 容 。 
3.2.1.7 LSAck 报 文 
LSAck 报 文 格式 如 图 3-17 所 示 。 
LSA Headers: LSA 头 列表 , OSPF 通过 LSA 头 对 收 到 的 完整 LSA 做 确认 。 一 份 LSAck 
可 以 对 多 份 LSU 中 的 LSA 做 确认 。 
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站 了 





LSA Headers... 


图 3-17 LSAck 报 文 格式 
3.2.2 LSA 格式 及 类 型 


在 AS 内 的 每 台 路 由 器 ， 根 据 路 由 器 的 分 类 产生 一 种 或 多 种 LSA。 收 到 的 LSA 的 集合 
形成 了 LSDB (Link-state Database)。OSPF 中 对 路 由 信息 的 描述 都 是 封装 在 LSA 中 发 布 出 
去 的 。 常 用 的 LSA 共有 6 种 ， 分 别 为 : RouterLSA、Network-LSA、Network-Summary LSA、 
ASBR-Summary-LSA、AS-External-LSA 及 NSSA-ExternalLSA。LSA 头 格式 如 图 3-18 所 示 。 





图 3-18 LSA 头 格式 


说 明 : 

LS Age: 16 位 ，LSA 产生 后 所 经 过 的 时 间 ， 以 为 单位。 

说 明 : 

无 论 LSA 是 在 链 路 上 传送 ， 还 是 保存 在 LSDB 中 ，LS age 值 都 会 不 停 地 增长 。 默 认 下 ， 
泛 洪 时 每 经 过 一 台 路 由 器 其 Age 增加 1。LSA age 如 果 高 位 置 1， 代 表 该 LSA 在 进入 LSDB 
后 不 再 老化 。 此 场景 仅 发 生 在 DemandCircuit 类 型 链 路 上 。 


。 Options: 8 位 ，E、MC 及 DC 位 同 OSPF 头 中 选项 位 一 致 ， 此 处 N/P 位 的 含义 
代表 能 处 理 Type-7 LSA; P (Propagate) 通告 位 ， 代 表 置 了 该 位 的 LSA7 可 以 
被 7/5 转换 器 翻译 成 为 LSA5。 

。 LStype: 8 位， 代表 不 同 LSA 类 型 。 

。 Link State ID: 32 位 ,与 LSA 中 的 LS Type 和 Advertising Router 一 起 用 来 在 
OSPF 中 唯一 标识 一 个 LSA。 

e。 Advertising Router: 32 位 ， 记 录 产 生 此 LSA 的 路 由 器 的 Router ID。 

。 LS sequence number: 32 位 LSA 的 序列 号 。 序 列 号 越 大 代表 该 LSA 越 新 ， 其 他 
路 由 器 根据 这 个 值 可 以 判断 哪个 LSA 是 最 新 的 。 

。 LS checksum: 16 位 ， 除 了 LS age 外 其 他 各 域 的 校 验 和 。 可 用 于 校 验 LSA 的 内 
容 及 用 来 确定 该 LSA 是 否 最 新 。 

。 Length: 16 位 ，LSA 的 总 长 度 ， 包 括 LSA Header， 以 字 节 为 单位 。 
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LSA 类 型 定义 
IETF 为 IPv4 定义 了 以 下 几 种 可 用 的 LSA 类 型 。 
。 Router-LSA (Typel1)， 以 下 简称 LSA1， 每 个 设备 都 会 产生 ， 描 述 了 设备 的 链 
路 状态 和 开销 ， 仅 在 所 属 的 区 域内 泛 洪 。 
。 Network-LSA (Type2)， 以 下 简称 LSA2， 由 DR (Designated Router) 产生 ， 描 
述 MA 网 络 的 链 路 状态 ， 仅 在 所 属 的 区 域内 泛 洪 。(P2P 网 络 类 型 的 链 路 上 没有 。) 
e。 Network-Summary-LSA (Type3)， 以 下 简称 LSA3， 区 域内 某 个 网 段 的 路 由 ， 
由 ABR 产生 LSA3 向 其 他 区 域 通告 。LSA3 在 区 域 间 传递 路 由 ， 但 该 LSA3 泛 
洪 范 围 仅 在 一 个 区 域内 。 
。 ASBR-Summary-LSA (Type4)， 以 下 简称 LSA4， 由 ABR 产生 ， 描 述 到 ASBR 
的 距离 ， 通 告 给 除 ASBR 所 在 区 域 的 其 他 相关 区 域 ， 该 LSA4 的 泛 洪 范围 仅 在 
一 个 区 域 。ABR 会 在 区 域 边界 为 其 他 区 域 再 产生 LSA4 并 继续 泛 洪 。 
。 AS-external-LSA (Type5)， 以 下 简称 LSA5， 由 ASBR 产生 ， 描 述 到 AS 外 部 
的 路 由 ， 可 泛 洪 到 所 有 的 区 域 (除了 STUB 区 域 和 NSSA 区 域 )。 
。 NSSALSA (Type7), 以 下 简称 LSA7， 由 ASBR 产生 ,描述 到 AS 外 部 的 路 由 ， 
仅 在 NSSA 区 域内 泛 洪 。 
补充 说 明 : 
Opaque LSA (Type9/Type10/Typel1)，Opaque LSA 提供 用 于 OSPF 的 扩展 的 通用 机 
制 。 其 中 ，Type9 LSA 仅 在 接口 所 在 网 段 范 围 内 泛 洪 。 用 于 支持 GR 的 Grace LSA 就 是 
Type9 LSA 的 一 种 。 
Typel0LSA 在 区 域内 泛 洪 ， 用 于 支持 TE 的 LSA 就 是 Typel0LSA 的 一 种 。 
Typell LSA 在 AS 内 泛 洪 ， 目 前 还 没有 实际 应 用 的 例子 。LSA9/10/11 在 MPLS TE 
中 有 涉及 ， 此 处 不 对 其 做 分 析 。 


3.2.3 ” 泛 洪 机 制 


1. 泛 洪 机 制 

OSPF 不 同 于 矢量 路 由 协议 在 于 其 路 由 是 根据 LSDB 中 的 LSA 计算 出 来 的 ， 所 以 
LSDB 的 一 致 性 及 快速 同步 直接 影响 OSPF 路 由 的 收敛 性 能 。 

Area 中 所 有 OSPF 路 由 器 要 有 一 个 相同 的 LSDB，LSDB 是 LSA 的 集合 ,， 这些 LSA 
在 Area 内 泛 洪 给 每 台 路 由 器 ， 泛 洪 的 过 程 是 路 由 器 把 自己 产生 或 学 来 的 LSA 向 所 有 其 
他 邻居 或 路 由 器 通告 的 过 程 。 

数据 库 包 含 所 有 LSA， 数 据 库 中 任何 LSA 的 变化 都 会 触发 当前 路 由 器 通告 该 变化 
给 邻居 路 由 器 并 泛 洪 至 所 属 区 域 ， 为 了 确保 LSDB 被 及 时 更 新 且 保 证 其 内 容 的 一 致 性 ， 
OSPF 泛 洪 使 用 LSU 和 LSAck 来 保证 泛 洪 的 可 靠 性 。 

OSPF 的 Update/LSAck 可 以 携带 多 份 LSA， 通 过 在 邻居 之 间 泛 洪 LSU/LSAck， 最 
终 通告 到 全 网 络 。 在 点 到 点 网 络 , 更 新 以 组 播 方 式 发 送 到 224.0.0.5, 在 点 到 多 点 (NBMA) 
类 型 和 Vlink 类 型 链 路 上 则 以 单 播 方式 泛 洪 给 邻居 。 

每 台 路 由 器 在 一 个 接口 收 到 泛 洪 的 LSA 报 文 ， 会 继续 向 其 他 接口 泛 洪 。 例 如 ， 在 
MA 网 段 上 ， 若 DRother 向 DR/BDR 泛 洪 ， 则 DR 会 以 组 播 方式 将 LSU (包含 LSA) 向 
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其 他 DRother 泛 洪 。 

NBMA 网 络 上 DRother 单 播 给 DR/IBDR，DR 再 单 播 给 DRother。 

泛 洪 过 程 是 个 可 靠 过 程 ， 有 确认 机 制 。 其 中 每 份 泛 洪 的 LSA 都 必须 被 确认 ,确认 包 
括 显 式 (ExplicitAck) 或 隐 含 确认 〈ImplicitAck)， 使 用 Update 做 确认 的 就 是 隐 含 确认 ， 
而 使 用 LSAck 做 确认 的 就 是 显 式 确 认 。 例 如 ， 如 果 接 收 者 同样 需要 发 送 LSU 给 发 送 方 ， 
可 显示 包含 需要 被 确认 的 LSA 头 来 完成 的 确认 , 这 样 可 以 减少 单独 确认 LSAck 的 过 程 。 

说 明 : 

LSU 和 LSAck 报 文 都 可 包含 多 个 LSA 的 信息 ， 但 LSU 携带 完整 的 LSA， 而 LSAck 仅 包含 
用 来 做 确认 的 LSA 头 。 


当 一 份 LSA 被 泛 洪 出 去 ， 当 前 路 由 器 会 记录 在 该 接口 的 所 有 邻居 数量 并 为 之 维护 重 
传 列 表 ， 没 有 收 到 显示 或 隐 含 确认 的 LSA 会 在 5s 后 单 播 重 传 更 新 〈 不 管 网 络 类 型 是 什么 )。 

2. 路 由 器 的 泛 洪 行为 

每 台 路 由 器 都 有 相似 的 工作 行为 以 生成 一 致 的 LSDB。 

(1) 一 个 接口 收 到 LSA， 存 放 到 LSDB 后 ， 再 从 “其 他 接口 ”重新 泛 洪 出 去 ， 泛 洪 
也 有 “水 平分 割 ” 的 行为 ， 例 外 是 DR 会 把 从 一 个 DRother 收 到 的 LSA 通过 原 接口 重新 
通告 给 其 他 DRother 路 由 器 。 

(2) 重新 通告 的 LSA 和 收 到 的 LSA 除 Age 增加 1 外 ， 其 他 内 容 一 致 ， 如 checksum 等 。 

(3) LSA 会 泛 洪 到 区 域 的 边界 。 

(4) 每 台 接收 路 由 器 先 判断 LSDB 中 是 否 已 有 该 LSA， 没 有 则 存储 且 转 发 ， 否 则 忽略 。 

(5) 如 果 接 收 时 没有 判断 是 否 已 拥有 该 LSA， 或 路 由 器 没有 停止 转发 ， 则 会 致 LSA 
在 Area 内 无 休止 地 传递 。 

“ 泛 洪 入 “数据库 同 步 ” 及 “LSU 更 新 ”这 些 名 词 作 用 相同 ， 数 据 库 同步 是 指 邻 居 
路 由 器 之 间 在 刚 建立 邻居 关系 后 ， 彼 此 初次 交换 LSDB 中 LSA 的 过 程 。LSU 更 新 是 传 
递 LSA 的 OSPF 报 文 。 不 论 是 周期 的 、 触 发 的 ， 还 是 初始 同步 过 程 中 ，LSU 都 属于 泛 洪 
的 范畴 。( 完 整 的 LSA 仅 能 使 用 LSU 来 传递 。) 


3. LSDB 
LSDB 中 每 份 LSA 都 有 唯一 的 身份 证 ID， 由 三 个 参数 构成 : 
。 LSA 类 型 


。 链 路 状态 ID (Link State ID ) 

e 通告 路 由 器 的 RouterID 

例如 : Rl 产生 的 LSA1, 它 的 类 型 为 RouterLSA, LinkStateID 为 1.1.1.1, 通告 路 由 器 1.1.1.1。 
LSDB 中 的 每 份 LSA 都 靠 这 个 “身份 证 ID” 来 唯一 标识 。 

泛 洪 是 可 靠 的 、 周 期 性 (30min) 或 触发 产生 的 LSA 通告 过 程 。 

泛 洪 是 把 LSA 向 区 域 中 的 每 条 链 路 复制 并 通告 的 过 程 。 

全 区 域 的 泛 洪 会 致 路 由 器 收 到 多 份 相同 的 LSA，LSDB 中 仅 保 留 最 新 的 。 

路 由 器 仅 泛 洪 最 新 的 LSA， 相 同 ID 的 “ 旧 的 ”LSA 会 被 “新 的 ”LSA 所 覆盖 。 
一 旦 最 新 的 LSA 被 所 有 路 由 器 收 到 ， 泛 洪 就 结束 了 。 

区 域 中 会 有 周期 产生 的 新 的 LSA 所 致 的 泛 洪 或 触发 产生 的 新 的 LSA 导致 的 泛 
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洪 行为 。 

判断 相同 ID 的 “新 的 ”LSA 要 依次 比较 以 下 内 容 : 

。 LSA 序列 号 (Sequence Number) 

e LSA 报 文 校 验 和 “(Checksum) 

。 LSA 年 龄 (LSA Age) 

说 明 如 下 。 

e ”序列 号 : 有 符号 32 位 整数 , 采用 线性 递增 的 序列 号 , 初始 序列 号 从 0x80000001 
到 最 大 值 0x7FFFFFFF， 序列 号 越 大 代表 越 新 ，LSA 会 周期 (30min) 产生 新 的 
LSA， 每 次 产生 的 LSA 序列 号 都 会 增加 1。 

e ”Checksum: 16 位 数 , 对 刚 收 到 的 LSA 做 计算 ， Age 字 域 不 在 计算 内 。 即 使 LSA 
存放 在 LSDB 中 ， 路 由 器 也 会 每 5 分 钟 重新 计算 一 次 。 

。 Age: 16 位 无 符号 整数 。LSA 的 最 大 年 龄 是 3600s，LSA 在 路 由 器 间 泛 洪 时 每 
经 过 一 跳 年 龄 增加 1, 在 LSDB 中 存放 时 年 龄 也 增加 1。 若 LSA 的 年 龄 达到 3600s 
( 即 Maxage)， 路 由 器 会 从 LSDB 中 清除 该 LSA。 在 拓扑 稳定 的 场合 下 ， 每 份 
存放 在 LSDB 中 的 LSA 间隔 30min 都 会 被 周期 产生 的 新 LSA 刷新 。 

泛 洪 机 制 把 LSA 向 区 域 中 的 每 条 链 路 通告 ,不 论 LSA 从 哪 条 链 路 泛 洪 到 当前 路 由 器 ， 

在 路 由 器 的 LSDB 中 仅 保 存 一 份 最 新 的 LSA。 若 路 由 器 收 到 多 份 相同 “ID” 的 LSA， 则 
依次 比较 序列 号 、Checksum 及 LSA Age， 来 判定 是 否 继续 泛 洪 该 LSA， 还 是 终止 泛 洪 。 

。 ”如 果 收 到 的 LSA 本 地 数据 库 中 没有 ， 则 接收 该 LSA 并 继续 泛 洪 。 

e ”如 果 收 到 的 LSA 本 地 有 ， 但 收 到 的 LSA 比 自 己 当前 已 有 的 LSA 要 新 ， 则 更 新 
LSDB 并 泛 洪 新 的 LSA。 

。 ”如 果 收 到 的 LSA 比 自己 已 有 的 LSA 旧 ， 则 不 接收 该 LSA。 

e ”如 果 收 到 的 LSA 和 自己 路 由 器 的 LSA 一 样 新 ， 则 忽略 ， 并 终止 泛 洪 。 

e ”如 果 收 到 的 LSA 损坏 ， 比 如 Checksum 错误 ， 则 不 接收 该 LSA。 


说 明 1; 

判断 LSA 新 旧 的 规则 如 下 。 

(1) 序列 号 越 大 代表 越 新 。 

(2) 车 序列 号 相同 ， 则 Checksum 数值 越 大 代表 越 新 。 

(3) 上 述 一 致 的 情况 下 ， 继 续 比较 Age。 

e@ 若 LSA 的 Age 为 MaxAge， 即 3600s， 则 该 LSA 被 认定 更 “新 "。 

e 若 LSA 间 Age 差额 超过 15min， 则 Age 小 的 LSA 被 认定 更 “新 "。 

e 若 LSA Age 差额 在 15min 以 内 ， 则 二 者 视 为 相同 “新 ”的 LSA， 只 保留 先 收 到 的 

一 份 LSA。 

说 明之 : 

LSDB 中 LSA 的 超时 机 制 。 

LSDB 中 LSA 都 有 Age， 最 大 是 36005S， 超 过 该 值 ， 则 该 LSA 会 从 LSDB 中 被 清除 。LSDB 
中 LSA 被 清除 的 场景 : 

(1) 超过 MaxAge 被 路 由 器 自动 清除 ; 
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(2) LSA 起 源 路 由 器 产生 MaxAge 的 LSA 并 向 区 域 中 泛 洪 ， 收 到 的 路 由 器 用 其 更 新 自己 
LSDB 中 的 LSA。 泛 洪 MaxAge 的 LSA， 其 作用 相当 于 “毒化 ”路 由 。 

说 明志 : 

可 靠 泛 洪 。 

泛 洪 的 过 程 是 可 靠 的 过 程 ， 每 份 LSA 都 要 在 LSU 中 通告 给 邻居 ， 邻 居 要 对 收 到 的 每 份 
LSA 做 确认 ， 如 果 没 有 收 到 用 于 确认 的 LSAck， 则 LSU 要 5s 后 重 传 。 可 靠 泛 洪 的 结果 使 整 
个 Area 中 的 每 台 路 由 器 都 有 完全 一 样 的 LSDB。 


X 路 由 器 泛 洪 示意 图 如 图 3-19 所 示 。 

例如 : XX 路 由 器 泛 洪 自己 的 RouterLSA， 其 序列 号 为 8000000B， 当 网 络 稳定 后 ， 所 有 路 
由 器 LSDB 中 都 有 X 的 LSA。 某 一 时 刻 ，X 路 由 器 突然 故障 ， 修 复 上 线 后 ， 网 络 有 什么 变化 ? 

答 : - 

网 络 稳定 之 后 ，X 突然 故障 并 离线 。8000000B 的 LSA 在 
其 他 路 由 器 的 LSDB 中 继续 存活 到 3600s， 此 期 间 因 同 A 和 C 
设备 相连 的 拓扑 变化 ， 会 致 A 和 C 泛 洪 “新 ”LSA。 其 他 路 由 二 
器 重新 计算 路 由 后 ， 网 络 中 不 再 有 XX 的 路 由 。 1 

X 上 线 后 ， 由 于 初次 启动 ，X 会 产生 序列 号 为 80000001 的 LSA， 其 他 相 邻 的 路 由 
器 收 到 序号 为 80000001 的 LSA, 而 A 和 C 的 LSDB 中 有 8000000B 的 LSA， 同 步 后 ， 
X 会 从 A 或 C 收 到 序列 号 8000000B 的 入 曾经 产生 的 LSA。 但 和 没有 任何 产生 过 该 LSA 
的 记录 ， 所 以 X 会 立即 产生 一 份 更 新 的 LSA， 序 列 号 为 0x8000000C， 去 覆盖 网 络 中 的 
旧 LSA。 此 后 序列 号 就 从 0x8000000C 继续 开始 。 

结论 : 

路 由 器 如 果 收 到 比 自己 新 的 LSA， 路 由 器 要 有 动作 ， 表 明 可 能 重启 过 ， 这 种 情况 下 ， 
路 由 器 必须 “加 速 ”LSA 老化， 序列 号 +1 以 超过 “新 ”LSA 序列 号 ， 并 立即 泛 洪 。 同 样 的 
机 制 在 RouterID 冲突 的 场景 下 也 会 出 现 。 如 区 域内 非 直 连 路 由 器 的 RID 一 致 ， 也 会 彼此 收 
到 非 自己 产生 的 LSA， 但 标识 又 是 自己 的 RID 的 LSA， 接 收 路 由 器 的 做 法 是 立即 产生 更 高 
序列 号 的 LSA 并 向 外 泛 洪 。 重复 的 行为 在 网 络 一 直 发 生 ， 序 列 号 一 直 递 增 ， 直 至 其 中 一 人 台 
设备 自动 调整 自己 的 RID，RID 不 再 冲突 为 止 。 


入 





3.3 ”拓扑 描述 及 路 由 计算 


3.3.1 LSA 1 和 LSA 2 内 容 分 析 


a LSAT 

LSA1 报 文 内 容 

每 台 路 由 器 会 为 自己 所 处 的 每 个 区 域 产 生 一 份 Router LSA， 该 Router LSA 包含 属于 
该 区 域 的 所 有 链 路 的 链 路 状态 信息 。 

Router-LSA 报 文 格式 如 图 3-20 所 示 。 
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日 Router-LSA 
.000 0000 0000 O0111 = LS Age (seconds): 7 


Os rs aaas 下 Do NOE LA9e KEiags 0 
B options: Ox02 (E) 
0... .... = DN: Not set 
:0.. .... = 0: Not set 
‘0. .... = DC: Demand Circuits are NOT supported 
+0.... = 上 L: The packet does NOT contain LLS data block 


.。 0,... = NP; NSSA is NOT supported 
. .0.. = MC: NOT Multicast Capable 
++ .1. = E; External Routing CapabiTity 
.0=MT: NO Multi-Topol1ogy Routing 
LS Type: Router-LSA (1) 
Link State ID: 4.4.4.4 (4.4.4.4) 
Advertising Router: 4.4.4.4 (4.4.4.4) 
sequence Number: 0x80000006 
Checksum: Ox709c 
Length: 48 
BFlags: Ox00 
se 0.. = V: NO Virtual 1ink endpoinr 
+ .0. = E; NO AS boundary router 
se 0 = B: NO Area border router 
Number of Links: 2 
田 Type: Transit ID: 123.1.1.2 Data: 123.1.1.4 Metric: 1 
田 Type: Stub ID: 4.4.4.4 Data: 255.255.255.255 Metric: 0 


图 3-20 ”Router-LSA 报 文 格式 


Router LSA 包含 以 下 几 项 。 

e。 LSAge: 16 位 数 ， 后 15 位 数 用 来 表示 age，LSA 初始 产生 时 ，age 数值 为 0; 

最 高 位 有 特殊 含义 ， 置 位 则 代表 该 LSA 在 LSDB 中 年 龄 不 老化 过 期 (DoNotAge); 
若 没有 置 位 ， 则 age 正常 老化 ， 即 在 LSDB 中 年 龄 老化 。 

e。 ”Options 位 : 参考 前 面 章节 。 

。 LS Type: LSA 的 类 型 ，Type=1。 

e Link State ID: 路 由 器 的 RouterID 。 

。 Advertising Router: 产生 该 LSA 的 路 由 器 RouterID 。。 

。 SequenceNumber: 线性 的 序列 号 ， 初 始 值 从 0x80000001 开始 递增 。 新 的 LSA 

序列 号 会 增加 。 
。 Checksum: 对 整个 LSA 做 CheckSum 〈 除 去 Age 字 域 )。 
e Flags: V 若 置 位 ， 代 表 是 Vlink endpoint; B 若 置 位 ， 代 表 是 ABR; E 若 置 位 代 


表 是 ASBR。 

。 ”Number of Links: Link 的 数量 ， 代 表 OSPF 画 出 的 有 向 图 上 的 Link 的 数量 ， 而 
非 物 理 路 由 器 接口 的 数量 。 

Link 类 型 及 描述 


OSPF 定义 了 4 种 类 型 Link， 路 由 器 接口 的 OSPF 网 络 类 型 不 同 ， 产 生 的 Link 也 不 同 ， 
路 由 器 把 所 有 接口 的 Link 放 到 RouterLSA 中 在 区 域内 泛 洪 。RFC2328 定义 OSPF RouterLSA 
只 用 4 种 类 型 的 Link 来 描述 各 种 类 型 的 网 络 ， 每 种 Link 的 含义 及 构成 见 表 3-4 所 示 。 

表 3-4 Router-LSA 所 定义 的 四 种 Link 类 型 














Link Data 





Point-to-point 
TransNetwork 

















StubNetwork 末节 类 型 链 路 〈 网 络 ) 网 络 掩 码 
Virtual Link 虚拟 点 到 点 链 路 本 地 Vlink 的 JP 地 址 
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人 | 第 = 车 OSPF2ROSPFa | _ _ 
Link 类 型 1: Point-to-Point 类 型 
OSPF 节点 间 为 点 到 点 链 路 ， 如 PPP 或 HDLC 链 路 ，OSPF 默认 的 网 络 类 型 为 ospf 
network point-to-point， 则 节点 在 表述 拓扑 关系 时 ， 使 用 Point-to-Point 类 型 Link。 
逻辑 拓扑 图 示 如 图 3-21 所 示 。 





10.1.1.1/24 10.1.1.2/24 


Cost=64 Directed Graph 


(a) 点 到 点 物理 链 路 (b) 点 到 点 逻辑 拓扑 
图 3-21 Point-to-Point 类 型 示例 


Link 类 型 2，TransNet 类 型 

在 OSPF 中 ， 多 路 访问 网 络 上 如 果 有 多 个 OSPF 节点 ， 彼 此 之 间 会 形成 全 互联 的 邻 
居 关 系 。 如 图 3-22 (a) 所 示 ，R1、R2、R3 和 R4 接 在 共同 的 以 太 网 络 上 ，OSPF 将 其 
表达 成 逻辑 拓扑 时 ， 使 用 图 3-22 (b) 所 示 的 逻辑 连接 关系 。 图 中 ，N1 是 个 虚 出 来 的 节 
点 ， 代 表 R1、R2、R3 和 R4 之 间 的 网 络 。 而 R1 到 N1 的 连接 关系 由 R1 的 TransNet 类 
型 Link 来 表示 。 





Directed Graph 
(a) 多 点 物理 网 络 (b) 多 点 逻辑 网 络 
3-22 ”TransNet 类 型 示例 


(1) 逻辑 图 中 ，R1 指向 N1 的 边 上 成 本 是 5， 而 N1 指向 R1 的 边 上 成 本 是 0， 逻辑 图 
是 有 向 图 。 

(2) 虚 节 点 N1 到 周边 其 他 节点 R1、R2、R3 及 R4 的 距离 为 0。 从 逻辑 图 上 可 知 经 过 
上 庶 节 点 不 会 引入 额外 的 成 本 。 


Link 类 型 3，StubNetwork 

StubNet 代表 一 个 网 络 ， 用 末节 节点 来 表示 ， 附 着 〈 挂 在 ) 在 实 节 点 上 ， 不 表示 任 
何 连接 关系 ， 其 实 是 实 节点 上 的 网 络 。 在 OSPF 逻辑 图 上 ，StubNet 类 型 Link 可 以 表示 
挂 在 实 节 点 上 的 叶子 节点 。 

图 3-23 (a) 表示 R1 上 有 个 N1 网 络 ， 在 OSPF 中 ， 图 3-23 (b) 是 图 (a) 中 路 由 
器 内 部 的 逻辑 图 。N1 是 代表 网 络 的 叶子 节点 ， 挂 在 R1 上 。 
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说 明 : 
逻辑 图 中 的 箭头 代表 R1 连接 N1。 


例 : 请 把 图 3-24 中 网 络 所 对 应 的 逻辑 拓扑 画 出 来 。 
R1 和 R2 间 使 用 10.1.1.0/24 及 10.1.1.0/26 两 个 不 同 子 网 。 


RI 
10 
Cost=10 
四 
Directed Graph PPP 
10.1.1.1/24 10.1.1.2/26 
(a) 末节 网 络 (b) StubNet Cost=48 
图 3-23 末节 网 络 和 StubNet 图 3-24 Rl 和 R2 间 点 到 点 网 络 


笠 


有 IP 地址 的 点 到 点 的 链 路 需要 使 用 两 个 Link， 一 个 是 Point-to-Point 类 型 的 Link， 
描述 直 连 的 邻居 ， 即 R1 连 到 R2; 一 个 是 StubNet 类 型 的 Link， 用 来 描述 节点 上 的 网 络 ， 
即 R1 上 有 网 络 10.1.1.0/24; 同 理 ，R2 的 拓扑 及 网 络 2 
也 使 用 相似 的 表达 。 

根据 上 述 表示 所 画 出 的 逻辑 拓扑 如 图 3-25 所 示 ， 
以 R1 为 树 根 , 根据 上 述 Rl1 和 R2 的 Link 内 容 , 画 出 
上 述 逻 辑 拓扑 。 其 中 ，R1 有 连 向 R2 的 “ 边 ”。 反 之 
亦 然 。 在 SPF 树 上 ，StubNet 类 型 的 Link 以 叶子 节点 
的 方式 挂 在 “SPF 树 ” 上 。 10.1.1.0/26 

根据 图 3-25 所 示 ，R1 路 由 计算 的 最 终结 果 : 图 3-25 ”Point-to-Point 网 络 逻 辑 拓扑 


R1 到 10.1.1.0/26 的 路 径 成 本 是 48+48=96; RI1 到 10.1.1.0/26 的 下 一 跳 是 R2。 
# 
<R1>display ospf routing 

OSPF Process 1 with Router ID 1.1.1.1 





Routing Tables 

Routing for Network 
Destination Cost Type NextHop AdvRouter Area 
10.1.1.0/24 48 Stub 10.1.1.1 1.1.1.1 0.0.0.0 
10.1.1.0/26 96 Stub 10.1.1.2 2 人 2 0.0.0.0 
Total Nets: 2 
Intra Area: 2 Inter Area:0 ASE:0 NSSA:0 

# 

<R1>display ip routing-table 


Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 9 Routes :9 

Destination/Mask Proto Pre Cost Flags NextHop Interface 
10.1.12.0/24 Direct 0 0 D1012 Seriall/0/0 
10.1.12.0/28 OSPF 10 96 Di L1022 Seriall/0/0 
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104.124132 Direct DO De 4270:0.1 Seriall/01/0 
10.1.12.2/32 Direct 0 0 D .101.12.2 Seriall/0/0 
10:1:12.233/32 "Direet' 0 0.0 = 0 Seriall/0/0 


# 
根据 有 向 图 及 最 终 的 树 计 算 OSPF 路 由 : display ospfrouting。 


说 明 : 

(1) 在 OSPF 的 逻辑 拓扑 中 ， 表 达 拓 扑 的 点 有 代表 路 由 器 的 实 节点 和 代表 TransNet 网 
络 的 虚 节点 。 如 果 把 代表 路 由 器 的 节点 叫 作 实 节点 (Node) ， 则 把 代表 TransNet 网 络 的 节 
点 用 虚 节 点 (Pseduonode) 代表 。 

(2) 一 张 描述 全 网 络 的 图 上 仅 包 含 点 和 边 。 路 由 器 和 中 间 的 多 点 网 络 在 图 中 由 点 所 表 
示 。 网 段 信息 也 以 叶子 节点 的 方式 出 现在 图 中 。 二 者 的 区 别 是 叶子 节点 要 挂 在 树 的 末端 。 
但 要 等 SPF 计算 结束 之 后 ， 才 挂 在 SPF 树 上 。 由 树 根 访问 图 中 的 任何 一 个 叶子 节点 ， 就 是 
计算 路 由 的 过 程 。 

(3) 网 络 分 TransNet 网 络 和 Stub 网 络 ， 二 者 的 区 别 是 TransNet 网 络 上 有 至 少 两 个 节点 ， 流 
量 可 以 经 过 TransNet 网 络 在 节点 间 传 递 ， 而 Stub 网 络 仅 代表 连 在 一 个 节点 (路 由 器 ) 上 的 网 
络 ， 流 量 只 能 进 或 者 出 该 网 络 。Stub 网 络 包含 如 下 类 型 ， Loopback 接口 的 网 络 、Secondary 地 
址 网 络 、 无 邻居 的 以 太 网 接口 网 络 及 点 到 点 链 路 上 每 个 节点 (路 由 器 ) 所 连 的 网 络 。 

(4) TransNet 网 络 要 表达 4 个 节点 间 全 互联 可 达 的 关系 ， 在 数学 模型 的 描述 中 ， 把 中 
间 的 Network 表述 成 一 个 节点 ， 并 连接 每 个 节点 。 

(5) 叶子 节点 尽管 代表 网 络 ， 本 身 也 有 成 本 ， 其 成 本 就 是 所 在 链 路 的 成 本 。 


3.3.1.2 LSA2 内 容 

Network LSA， 简 称 为 LSA2， 用 来 描述 多 点 网 络 上 的 拓扑 关系 。 

Network LSA 仅 会 出 现在 网 络 类 型 是 Broadcast 或 NBMA 的 网 络 上 。Broadcast 和 
NBMA 网 络 上 会 选举 DR, 选举 出 来 的 DR 除 用 于 数据 库 同 步 外 , DR 也 负责 产生 LSA2。 
LSA2 用 于 描述 “ 虚 节 点 ”周边 的 连接 关系 。 这 个 LSA2 用 DR 路 由 器 的 接口 PP 来 标识 


局 Network-LSA 
9 0000 0000 O001 w= tL5 Age (seconds): 1 
。 = Do Not Age Flag: 0 
日 a “ox02” CE) 
0... .... = DN: Not set 
.0.. -一 O: NOC set 
:0. .... = DC: Demand Circuits are NOT supported 
,0 .,,. .一 Li The packet does NOT contain LLS dara block 
ee 0... = NP: NSSA 15 NOT Supported 
» :0.. = MC: NOT Multicast Capable 
.1. = E: External Routing Capabilirty 
:0 = MT; Mylti-Topology Routing 





checksum: Ox642e 
Length: 40 

[ermask: 255. 255.255.0 (255.255.255.0) | 
Attached Rout 本 

Aceg 二 3. 3. 3, 3 (3. 和 3) 
Attached Router: 4.4.4.4 (4.4.4.4) 
Artrached Rourer; 5,5.5.5 (5,5,5.5) 





图 3-26 ”Network LSA 报 文 结构 
Network LSA 包含 内 容 如 下 。 
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e。 LS Age: 同 LSA1。 

e ”Option 选项 位 : 〈 略 ) 

e LS Type: type=2。 

e Link State ID: DR 的 接口 耳 地 址 。 

。 Advertising Router: 产生 LSA2 的 通告 路 由 器 。 

。 SequenceNumber: 第 一 份 SequenceNumber 为 0x8000001， 每 次 更 新 Sequence 

Number 增 1。 

e Checksum: 对 除 Age 外 的 LSA 内 容 做 计算 。 

。 Netmask: 和 Link State ID 执行 “与 ”运算 ， 得 出 LSA2 所 代表 的 网 络 号 。 

e Attached Router: 连接 到 本 网 络 的 所 有 邻居 路 由 器 的 RouterID 。 

根据 图 3-26 中 的 LinkStateID 和 Netmask， 可 计算 出 LSA2 代表 网 络 123.1.1.0/24， 
并 根据 Attached Router 的 表述 , 得 知 该 网 络 同时 连接 四 台 路 由 器 一 一 R2、R3、R4 及 R5。 
所 以 LSA2 作用 是 通告 TransNet 网 络 号 及 描述 该 网 络 和 路 由 器 的 连接 关系 。 

因为 该 LSA2 中 既 包含 拓扑 连接 的 信息 ， 又 包含 网 络 信息 。 所 以 ， 当 网 络 变化 时 ， 即 使 
物理 拓扑 没有 变化 ， 同 样 会 触发 重新 产生 LSA2， 并 致 每 台 路 由 器 都 重新 发 生 SPF 计算 。 

3.3.1.3 LSA2 的 作用 

LSA2 是 由 MA 网 络 上 的 DR 路 由 器 产生 的 ,使 用 DR 接口 二 地 址 作为 LSA2 的 Link 
State ID。 相 比 于 LSA1 是 由 实 节点 产生 并 描述 实 节点 的 周边 的 连接 关系 和 网 络 ，LSA2 
是 由 DR 为 虚 节点 产生 ， 描 述 虚 节点 周边 的 连接 关系 和 网 络 信息 。 

图 3-22 (b) 中 ， 虚 节点 是 N1， 代 表 网 络 ， 连 接 RI、R2、R3 和 R4。 图 (a) 是 物 
理 网 络 ， 图 (b) 是 OSPF 根据 LSA1/LSA2 画 出 的 有 向 图 ， 从 图 中 可 看 出 ，N1 虚 节 点 连 
着 多 个 实 节点 。 

每 个 节点 〈 除 虚 节 点 外 ) 外 出 方向 的 链 路 成 本 为 接口 成 本 (可 使 用 OSPF Cost 修改 )， 
而 虚 节 点 N1 是 代表 中 间 网 络 虚拟 出 来 的 节点 ， 处 在 拓扑 中 间 ， 不 能 引入 额外 成 本 ， 所 
以 由 其 向 外 延伸 的 链 路 成 本 为 0。 


3.3.2 DR 及 虚 节 点 作用 


只 要 网 络 类 型 是 Broadcast 或 NBMA， 且 这 个 网 络 上 有 多 于 一 台 路 由 器 ， 则 此 网 络 
需要 且 必 定 要 选举 DR。 

DR 的 作用 : 一 是 用 于 数据 库 同步 ， 二 是 为 代表 网 络 的 虚 节 点 产生 LSA2。 

DR 是 MA 网 络 上 负责 数据 库 同步 的 路 由 器 ， 网 络 上 所 有 路 由 器 都 和 DR 有 邻接 

路 由 器 优先 级 在 1 一 255 之 间 都 有 资格 成 为 DR。 

每 台 路 由 器 根据 收 到 的 Hello 看 是 否 有 路 由 器 已 声称 为 DR。 

在 Wait 时 间 后 ， 开 始 选举 DR， 优 先 级 高 的 路 由 器 成 为 DR， 否则 RouterID 高 的 路 
由 器 成 为 DR。 

DR 不 能 被 抢占 ， 一 旦 选举 结束 ， 即 使 有 更 高 优先 级 的 路 由 器 接 到 网 络 中 来 ， 也 不 
能 抢占 成 为 DR， 同 样 也 不 会 抢占 成 为 BDR。 这 是 为 了 保持 网 络 稳定 ， 避 免 震 荡 。 

当 DR 选举 完成 后 ， 如 果 当 前 DR 失效 ， 则 BDR 成 为 DR， 并 重新 选举 BDR。 
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3.3.2.1 DR 的 选举 机 制 

MA 网 络 上 要 同时 选举 DR 和 BDR，MA 网 络 上 路 由 器 都 要 与 DR 和 BDR 形成 FULL 
的 邻接 关系 。 其 中 ，DR 与 BDR 之 间 也 是 FULL 的 邻接 关系 ，DRother 与 DRother 之 间 
则 只 存在 邻居 关系 ， 状 态 为 2-Way。 

MA 网 络 可 以 没有 BDR， 但 不 能 没有 DR。 

DR 的 选举 依靠 Hello 报 文 , 在 two-way 之 后 , 交互 Hello 报 文 完成 DR/BDR 的 选举 。 

每 台 路 由 器 根据 “ 听 到 ”的 所 有 邻居 的 Hello 报 文 ， 构 建 自己 接口 的 数据 结构 ， 并 
按照 以 下 算法 ， 计 算出 DR 和 BDR。 

选举 DR/BDR 算法 

(1) 路 由 器 接口 数据 结构 中 维持 三 个 集合 ， 分 别 是 : 

。 DR 集合 : 通过 Hello 学 习 到 的 所 有 DR 路 由 器 ; 

。 ”BDR 集合 : 通过 Hello 学 习 到 的 所 有 BDR 路 由 器 ; 

。 DRother 集合 : 没有 被 选举 为 DR/BDR 的 路 由 器 (优先 级 不 为 0)。 

(2) 算法 工作 时 ， 在 DR 集合 中 选择 最 好 的 路 由 器 ， 使 其 成 为 DR。 在 BDR 集合 中 
选择 最 好 的 路 由 器 ， 使 其 成 为 BDR。 

DR 的 选举 

在 DR 的 集合 中 应 用 以 下 规则 : 

如 果 DR 集合 为 非 空 ， 则 从 中 选择 最 好 的 路 由 器 成 为 DR; 

如 果 DR 集合 为 空 ， 则 把 当前 BDR 提升 为 DR; 而 如 果 BDR 集合 为 室 ， 则 要 先 从 
DRother 集合 中 选 出 BDR， 再 将 其 提升 为 DR。 

BDR 的 选举 

在 BDR 的 集合 中 应 用 以 下 规则 : 

如 果 BDR 集合 为 非 空 ， 则 从 中 选择 最 好 的 路 由 器 为 BDR， 

如 果 BDR 集合 为 空 ， 则 从 DRother 集合 中 选择 最 好 的 路 由 器 成 为 BDR 路 由 器 。 

DR 和 BDR 选举 的 过 程 

OSPF 路 由 器 在 DR/BDR 未 选举 出 来 之 前 ，Hello 报 文中 关于 DR 和 BDR 的 字 
段 为 全 0， 即 为 0.0.0.0。 选 举 完成 后 ，DR 和 BDR 的 字段 记录 已 知 的 DR 和 BDR 的 
RouterID 。 

路 由 器 接口 根据 听 到 的 Hello 报 文 ， 生 成 邻居 表 并 在 接口 维持 三 个 集合 : 

。 DR 集合 { } 

。 BDR 集合 {} 

。 DRother 〈 非 DR 非 BDR 但 是 有 资格 成 为 DR 和 BDR 的 路 由 器 ) 集合 {} 

过 程 如 下 。 

。 ” 当 OSPF 接口 开启 后 , 在 Hello 报 文 中 设置 DR/BDR 字 域 为 全 0, 此 时 DR/BDR 

未 知 。 同 时 ，Wait timer 启动 ， 时 长 为 4 倍 的 Hello 间隔 。 
。 ”如 果 收 到 的 Hello 报 文中 DR 及 BDR 字 域 为 非 空 ， 则 Wait 计时 器 停止 ， 接 受 
当前 DR/BDR 的 选择 。 
。 ”如 果 在 Wait 计时 器 超时 后 ， 仍 未 学 习 到 DR/BDR， 则 开始 DR/BDR 选举 。 
。 如 果 BDR 集合 为 室 ， 则 从 DRother 集合 选举 BDR; 如 果 DR 集合 为 室 ， 则 从 
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BDR 集合 选举 DR。 
。 据 此 ， 如 果 在 没有 DR/BDR 的 网 络 上 ，Wait 计时 器 超时 后 ， 网 络 上 的 每 台 路 由 
器 都 会 先 从 DRother 集合 选择 BDR， 再 把 BDR 提升 为 DR; 再 重新 从 DRother 
集合 选择 BDR。 至 此 ， 选 举 结束 ， 开 始 邻 接 建 立 。 
3.3.2.2 DR/BDR 计算 示例 1111 2222 
图 3-27 为 广播 网 络 ， 以 此 拓扑 为 例 ， 讲 解 DR 和 好 i 及 
BDR 的 选举 过 程 。 
场景 描述 : 2 
六 台 主 机 接 在 共同 的 IP 网 络 上 ，RI1 主机 的 最 
RouterID 为 1.1.1.1， 同 理 , 图 中 R2、R3、R4、R5 及 555 
R6 都 分 别 使 用 自己 的 路 由 器 编号 作为 RouterID。 < 





民 
问 : 此 时 BDR 及 DR 分 别 是 哪 台 路 由 器 ? 10.1.123.0/24 
过 程 如 下 。 3-27 多 点 网 络 的 DR 选举 
1. 所 有 的 路 由 器 在 DR/BDR 选举 出 来 之 前 通告 的 Hello 报 文中 DR/BDR 字段 为 : 
0.0.0.0。 


2. Wait 计时 器 超时 后 ， 路 由 器 开始 选举 DR 及 BDR。 

3. 以 R5 的 选举 过 程 为 例 ，R5 的 路 由 器 根据 听 到 的 邻居 的 Hello 报 文 ， 创 建 了 三 个 
集合 : 

DR 集合 { 空 } 

BDR 集 合 { 空 } 

DRother {Rl1，R2，R3，R4，R5，R6} 假设 优 先 级 都 为 默认 值 1) 

初始 ，DR 集合 为 定 ，BDR 集合 也 为 空 的 情况 下 ， 路 由 器 会 先 在 DRother 集合 内 选 
举 出 BDR，BDR 为 R6 (6.6.6.6); 之 后 在 DR 集合 为 宝 、BDR 集合 不 为 空 的 情况 下 ， 把 
BDR 提升 为 DR, 所 以 DR 为 6.6.6.6; 现在 由 于 没有 BDR, 再 从 DRother 集合 中 选举 BDR， 
所 以 BDR 为 5.5.5.5。 其 他 路 由 器 使 用 同样 的 选举 算法 ， 所 以 选 出 同样 的 DR 和 BDR。 


3.3.3 ”SPF 路 由 计算 


3.3.3.1 OSPF 路 由 计算 

执行 SPF 计算 包含 三 步 。 

(1) 路 由 器 根据 LSDB 中 的 LSA 画 出 网 络 图 (Graph)， 在 这 个 Graph 上 包含 OSPF 
网 络 拓 扑 中 所 有 “点 ”和 “ 边 ”， 画 图 需要 使 用 LSA1 中 Point-to-Point、TransNet 和 Vlink 
类 型 的 link 及 LSA2 来 描述 拓扑 。 


说 明 : 

由 于 每 台 路 由 器 的 LSDB 内 容 一 样 ， 所 以 在 每 台 路 由 器 上 根据 LSDB 中 LSA 画 出 的 区 域 
内 的 Graph 也 是 一 样 的 。 区 别 是 最 先 画 起 的 路 由 器 (起 点 路 由 器 ) 不 一 样 ， 每 台 路 由 器 都 
是 以 自己 为 起 点 开始 画 Graph 的 。 


(2) 路 由 器 以 自己 为 树 根 ， 对 图 (Graph) 执行 SPF 计算 〈 即 Dijsktra 算法 )。 画 出 一 
棵 由 树 根 到 图 中 每 个 节点 的 最 短 成 本 路 径 树 ， 从 树 根 到 树 上 任何 其 他 节点 的 成 本 是 最 小 的 。 
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(3) 在 树 的 节点 上 添加 网 络 信息 ， 并 计算 由 树 根 到 这 些 网 络 的 成 本 及 下 一 跳 ， 并 把 

计算 结果 加 入 到 路 由 表 中 。 把 SPF 树 上 添加 的 网 络 ， 称 为 叶子 节点 。SPF 已 计算 出 树 根 

到 任何 节点 的 最 小 距离 ， 再 把 代表 网 络 的 “叶子 ”节点 挂 在 SPF 树 的 相应 网 络 节点 上 。 

树 根 到 网 络 的 路 由 成 本 = 树 根 到 网 络 节点 的 距离 + 网 络 节点 到 叶子 节点 的 成 本 。 叶 子 节点 
可 以 是 LSAI1 中 的 StubNet、LSA2 中 的 网 络 、LSA3 的 网 络 、LSA5/7 的 网 络 。 


说 明 : 

Stub 网 络 挂 在 路 由 器 节点 ( 实 节点 ) 上 ，LSA2 中 网 络 挂 在 虚 节 点 上 ，LSA3 的 网 络 挂 在 
ABR 节点 上 ，LSA7 挂 在 ASBR 节点 上 ， 而 LSA5 则 可 能 挂 在 ASBR 或 ABR 上 ， 这 要 依 ASBR 
路 由 器 是 否 在 当前 区 域内 而 定 。 


3.3.3.2 iSPF (Incremental SPF ) 

在 路 由 计算 方面 ， 优 化 网 络 中 的 SPF 计算 过 程 ， 可 降低 计算 负荷 和 收敛 时 间 。iSPF 
其 主要 思想 就 是 “ 增 量 计算 ”( 即 只 计算 变化 的 部 分 ， 而 不 是 全 部 计算 )。SPF 算法 将 整 
个 网 络 信息 分 为 两 个 部 分 ， 如 图 3-28 所 示 ， 一 个 部 分 是 网 络 的 节点 〈 对 应 于 网 络 中 的 路 
由 器 、 共 享 网 段 ) 和 边 〈 路 由 器 以 及 共享 网 段 之 间 的 链 路 ) 组 成 的 网 络 拓扑 ， 男 一 个 部 
分 是 挂 在 节点 上 的 叶子 (网 段 路 由 、 主 机 路 由 等 )。 执 行路 由 计算 的 路 由 器 为 “ 树 根 
(Root)”。 


@ 叶子 节点 路 由 
a 
一 


图 3-28 ”最 短路 径 树 


仅 对 最 短路 径 树 上 拓扑 变化 的 部 分 所 引入 的 局 部 节点 的 计算 , 称 为 增 量 计 算 (iSPF ); 
而 针对 叶子 节点 (路 由 ) 的 计算 则 称 为 PRC (Partial Route Calculate)。“ 增 量 计算 ” 相 比 
于 Full SPF 计算 能 够 极 大 地 提高 路 由 器 的 计算 性 能 ， 降 低 CPU 负荷 。 

在 SPF 计算 中 ， 网 络 是 由 节点 以 及 边 构 成 的 ， 最 终 形成 一 棵 以 计算 路 由 器 为 根 的 最 
短路 径 树 ， 而 路 由 则 是 附着 在 树 的 节点 上 的 叶子 〈 节 点 )。 

OSPF 以 及 IS-IS 协议 在 数据 库 中 存储 的 是 自己 特定 格式 的 链 路 信息 , 这 些 信息 并 不 
能 直接 反映 出 拓扑 的 情况 以 及 路 由 与 拓扑 的 关系 ， 因 此 SPF 必须 通过 全 部 的 计算 过 程 来 
确定 最 短路 径 树 ， 并 计算 出 路 由 。 但 是 ，SPF 并 不 保存 这 个 计算 结果 ;这样 当 有 信息 发 
生变 化 时 ，SPF 只 能 再 次 全 部 重新 计算 一 遍 ， 这 浪费 时 间 及 系统 资源 。 

iSPF 是 拓扑 计算 的 一 种 ， 它 只 处 理 网 络 拓扑 的 信息 ， 即 只 负责 计算 出 最 短路 径 树 。 
通过 重新 组 织 链 路 状态 信息 ，iSPF 形成 了 一 个 直接 反映 网 络 拓扑 的 “图 ”(Graph); 而 
计算 出 的 最 短路 径 树 则 保存 在 这 个 “图 ”中 。 
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当 网 络 链 路 状态 发 生变 化 时 ，iSPF 会 判断 出 哪 部 分 网 络 拓扑 受到 了 影响 ， 从 而 只 计 
算 那 些 受 到 了 影响 的 部 分 ， 而 不 是 全 部 网 络 拓扑 。 

网 络 拓扑 变化 的 位 置 不 同 , 受到 影响 的 范围 就 不 同 , iSPF 计算 所 消耗 的 时 间 就 不 同 ， 
所 以 ，iSPF 计算 所 消耗 的 时 间 是 不 确定 的 ， 即 使 是 在 相同 的 网 络 结构 中 。 当 然 ， 如 果 发 
生变 化 的 是 根 节 点 的 边 ， 那 么 受 影响 的 范围 就 包括 了 整个 拓扑 ， 在 这 种 情况 下 ，iSPF 相 
当 于 进行 了 全 部 重新 计算 (Full SPF )。 

3.3.3.3 PRC 

任何 一 条 路 由 都 是 网 络 节点 上 的 “一 片 树叶 ” 即 叶子 节点 ， 从 根 节点 看 ， 只 要 到 
树 中 任何 实 (或 虚 ) 节点 的 最 短路 径 确定 了 ， 到 叶子 节点 的 最 短路 径 也 就 确定 了 ， 那 么 
到 节点 发 布 的 路 由 的 最 短路 径 也 就 确定 了 。 因 此 ，PRC 就 是 在 iSPF 计算 出 的 最 短路 径 
树 基础 上 再 来 计算 叶子 节点 代表 的 路 由 。 当 有 路 由 信息 改变 ，PRC 直接 判断 在 哪 条 链 路 
上 的 节点 的 哪个 叶子 出 现 变 化 ， 之 后 直接 进行 路 由 的 计算 与 更 新 。 

OSPF 是 链 路 状态 路 由 协议 ， 如 果 网 络 规模 较 大 ， 路 由 数量 众多 ， 链 路 的 抖动 或 路 
由 的 变化 对 网 络 的 影响 都 很 大 ， 所 以 要 提高 网 络 收敛 速度 ， 并 降低 网 络 负荷 。 

Full SPF 和 iSPF 计算 过 程 相 比 , iSPF 更 优 , 所 以 华为 采用 初次 计算 过 程 执行 涉及 全 
部 节点 的 Full SPF， 而 此 后 不 论 发 生 什么 变化 ， 只 把 故障 点 及 其 周边 的 连接 关系 重 画 ， 
执行 iSPF 计算 ， 只 计算 变化 的 部 分 ， 而 不 是 全 部 计算 。 如 果 SPF 计算 完毕 后 ， 再 对 变 
化 节点 上 执行 PRC 计算 ， 最 后 把 路 由 加 入 到 路 由 表 中 。 

3.3.3.4 路 由 计算 示例 

例 : 物理 网 络 如 图 3-29 所 示 ， 计 算 R4 到 图 中 所 有 网 络 的 路 由 。 图 中 ，Loop0 接口 
的 OSPF 成 本 设 为 1。 


OSPF Area0 
Loop0:10.1.1.1/24 Loop0:40.1.1.4/24 





E0:30.1.1.3/24 


3-29 ”物理 网 络 拓扑 


计算 过 程 如 下 。 

第 1 步 ， 画 图 。 

逻辑 拓扑 图 如 图 3-30 所 示 ， 图 是 有 向 图 ， 任 何 路 由 器 上 画 出 的 图 都 一 样 。 
第 2 步 ， 执 行 SPF 计算 。 

计算 以 R4 为 树 根 的 SPF 树 ， 如 图 3-31 所 示 。 
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0 0 
图 3-30 逻辑 拓扑 图 图 3-31 SPF 树 
第 3 步 ， 添 加 叶子 节点 并 计算 路 由 。 


从 图 3-32 中 可 以 看 出 ，R4 路 由 器 到 网 络 30.1.1.0/24， 下 一 跳 是 R1， 路 径 成 本 是 
40+11+0+10=61。 


14.1.1.0/24 14.1.1.0/24 





10.1.1.1/32 40.1.1.4/32 


图 3-32 添加 网 络 


到 14.1.1.0/24，R4 在 树 上 有 两 条 路 都 能 到 达 14.1.1.0/24， 选 择 成 本 最 小 的 一 条 放 到 
路 由 表 里 ， 在 OSPF 路 由 表 (Display Ospf Routing) 中， 到 14.1.1.0/24 成 本 是 40。 但 卫 
路 由 表 中 ， 由 于 有 直 连 路 由 14.1.1.0/24 存在 ， 所 以 路 由 表 中 看 不 到 OSPF 的 14.1.1.0/24 
路 由 。 

123.1.1.0/24 这 条 路 由 是 图 中 的 多 点 网 络 ， 由 虚 节 点 N 所 代表 ， 可 把 123.1.1.0/24 表 
示 成 挂 在 虚 节 点 后 面 的 叶子 节点 ， 虚 节点 不 引入 额外 成 本 ， 故 向 外 延伸 的 方向 的 成 本 都 
是 0， 成 本 是 40+11+0=51。 


说 明 : 
上 述 的 计算 过 程 会 根据 节点 的 数量 而 加 重 CPU 及 系统 的 负荷 。 


3.4 ”区 域 结构 设计 
随 着 网 络 规模 日 益 扩大 ， 当 一 个 大 型 网 络 中 的 路 由 器 都 运行 OSPF 路 由 协议 时 ， 路 
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由 器 数量 的 过 多 会 导致 LSDB 非常 庞大 ， 占 用 大 量 的 存储 空间 ， 并 使 得 SPF 计算 的 复杂 
度 及 开销 增加 ， 导 致 路 由 器 负担 很 重 。 尤 其 是 在 网 络 规模 增 大 之 后 ， 拓 扑 结 构 发 生变 化 
的 概率 也 增 大 ， 网 络 会 经 常 处 于 “动荡 ”之 中 ， 变 化 的 网 络 会 导致 有 大 量 的 OSPF LSA 
泛 洪 在 网 络 中 传递 ， 增 加 了 网 络 的 负担 。 

OSPF 把 整个 路 由 域 划分 为 多 个 区 域 以 减少 区 域 泛 洪 的 影响 ， 继 而 减少 LSDB 的 大 
小 及 计算 开销 。 每 个 区 域 包含 多 台 OSPF 路 由 器 , 不同 区 域 使 用 不 同 区 域 ID 来 标识 。 任 
何 区 域 都 使 用 区 域 ID 标识 ， 区 域 DD 是 32 位 数 ， 例 如 : 区 域 0.0.0.0、 区 域 0.0.1.2、 区 
域 3 等 。 区 域 0 是 骨干 区 域 ，OSPF 划分 区 域 是 以 路 由 器 为 边界 的 ， 每 条 链 路 〈 网 段 ) 
只 能 属于 一 个 区 域 。 所 以 边界 路 由 器 上 可 能 有 多 条 链 路 分 属于 不 同 区 域 ， 运 行 OSPF 的 
接口 必须 指明 属于 哪 一 个 区 域 。 

OSPF 网 络 中 每 区 域 OSPF 路 由 器 可 以 有 40 一 50 台 ， 理 论 上 每 个 区 域内 最 多 能 部 署 
的 路 由 器 数量 没有 限制 ， 完 全 取决 于 物理 路 由 器 的 性 能 ， 但 建议 不 要 超过 100 台 。 


3.4.1 ”OSPF 区 域 结 构 及 防 环 设计 


OSPF 定义 区 域 类 型 为 四 种 : 骨干 区 域 (Area0)、 普 通 区 域 (Normal Area)、Stub 区 
域 及 NSSA 区 域 。 

上 骨干 区 域 有 且 只 有 一 个 ， 所 有 其 他 区 域 必须 同 骨 干 区 域 相连 ， 如 果 没有 连接 到 骨干 
区 域 ， 将 不 会 学 到 其 他 区 域 路 由 ，OSPF 中 所 有 区 域 间 路 由 必须 经 骨干 区 域 传递 。 其 他 
区 域 车 没有 连接 到 骨干 区 域 ， 要 使 用 Vlink 连接 到 上 骨干 区 域 。 

上 骨干 区 域 不 能 被 分 割 ， 一 旦 分 制 ， 必 须 使 用 Vlink 连接 分 割 的 骨干 区 域 使 之 连续 。 
也 可 以 使 用 GRE 隧道 连接 被 分 割 的 区 域 , OSPF 这 种 特殊 的 分 层 的 设计 结构 用 来 避免 区 
域 间 的 路 由 所 致 的 环 路 。 

如 果 没 有 其 他 区 域 围 着 Area0 的 这 一 设计 要 求 , 为 使 每 个 区 域 在 图 3-33 的 区 域 结构 
中 可 以 互相 学 到 路 由 ， 必 然 要 求 LSA3 路 由 可 以 在 各 个 区 域 间 流 动 ， 这 样 就 会 出 现 离开 
一 个 区 域 的 LSA3 路 由 ， 经 过 其 他 区 域 再 流 回 来 的 可 能 性 。 如 图 3-33 所 示 ，Areal 中 
100.1.1.0/24 的 路 由 ， 进 入 Area0， 并 由 R7 继续 以 LSA3 通告 到 其 他 区 域 。 最 终 ，R7 除 
收 到 经 Areal 方向 学 来 的 100.1.1.0/24 路 由 ， 也 可 能 收 到 经 Area2-Area3-Area4-Area5 方 
向 学 到 的 路 由 ， 如 果 R7 选择 R6 通告 的 路 由 ， 则 路 由 环 路 出 现 。 

为 了 避免 上 述 环 路 ， 限 定 LSA3 路 由 的 流动 规则 : 不 允许 非 ABR 产生 LSA3。 所 以 ， 
Area3、Area4 无 法 学 到 其 他 区 域 Area0、Areal 的 路 由 ， 只 能 把 Area3 和 Area4 直接 连接 
到 Area0 才 可 以 。 基于 这 样 的 LSA3 的 设计 , 路 由 只 能 通过 图 3-33 中 的 R2 和 R6 在 区 域 
间 传 递 。 图 中 R3、R4 和 R5 不 是 ABR ( 同 Area0 无 连接 ), 无 法 在 区 域 间 相互 传递 路 由 。 

OSPF 的 这 种 区 域 结 构 设计 用 于 避免 区 域 间 环 路 。 


3.4.2 LSA3 及 区 域 间 路 由 通告 


3.4.2.1 LSA3 

图 3-34 为 区 域 间 路 由 示意 图 ,在 Area3 中 ， 区 域内 的 网 络 通过 LSA1 (StubNet 类 型 
Link) 和 LSA2 在 区 域内 泛 洪 。ABR RIl 产生 LSA3 向 Area0 通告 Area3 的 路 由 ，R2 和 
R3 产生 LSA3， 把 各 自学 到 的 Area0 里 的 区 域 间 路 由 继续 向 区 域 Areal 和 Area2 通告 。 
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图 3-34 区 域 间 路 由 


LSA3 特性 如 下 。 

(1) 边界 路 由 器 ABR 为 区 域内 的 每 条 OSPF 路 由 各 产生 一 份 LSA3 并 向 其 他 区 
域 通告 。 

(2) 边界 车 有 多 个 ABR， 则 每 个 ABR 都 产生 LSA3 来 通告 区 域 间 路 由 。 图 3-34 中 
R2 和 R3 是 Area0 和 Area2 的 ABR, 两 个 ABR 都 产生 LSA3 通告 路 由 进入 Area2, 所 以 
在 Area2 中 每 条 区 域 间 路 由 在 LSDB 中 都 有 两 份 LSA3， 分 别 由 两 个 ABR 产生 。 这 两 份 
LSA3 通过 Adveritsing Router 字 域 来 区 分 。 

(3) 区 域 间 传递 的 是 路 由 ，LSA3 是 由 每 个 区 域 的 ABR 产生 的 、 并 仅 在 该 区 域内 泛 
洪 的 一 类 LSA。 路 由 进入 其 他 区 域 后 ， 再 由 该 区 域 的 ABR 产生 LSA3 继续 泛 洪 。 

(4) OSPF 在 区 域 边界 上 有 具备 矢量 特性 ， 只 有 出 现在 ABR 路 由 表 里 的 路 由 才 会 被 通 
告 给 邻居 区 域 。 

(5) 计算 路 由 时 ,路 由 器 计算 自己 区 域内 到 ABR 的 成 本 加 上 LSA3 传递 的 区 域 间 成 
本 ， 得 到 的 是 当前 路 由 器 到 目标 网 络 端 到 端的 成 本 。 

(6) 如 果 ABR 路 由 器 上 路 由 表 中 的 某 条 OSPF 路 由 不 再 可 达 ， 则 ABR 会 立即 产生 
一 份 Age 为 3600s 的 LSA3 向 区 域内 泛 洪 ， 用 于 在 区 域内 撤销 该 网 络 。 
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3.4.2.2 区域 间 路 由 计算 示例 分 析 
OSPF 区 域 之 间 是 通过 Type 3 的 LSA 来 交换 路 由 信息 的 ， 这 类 LSA 不 携带 拓扑 信 
息 ， 结 构 比 较 简 单 。 


Type 3 LSA: Sum-net LSA， 由 ABR 产生 ， 在 区 域内 泛 洪 ， 携 带 的 信息 是 到 其 他 区 
域 的 网 络 信息 ， 不 携带 任何 拓扑 信息 。 


Type : Sum-Net 
Lsid :10.1.2.0 
AdvIit :2.2.7.2 

Ls age :1616 
Len :28 
Options : E 

Seq# :80000001 


chksum : Oxegc 
Netmask :255.255.255.0 
Tos0 metric: 100 
Priority :Low 
其 中 的 重要 字段 解释 如 下 。 
Ls id: 网 络 号 。 
Advrtr: 产生 LSA3 的 路 由 器 。 
Net Mask: 子 网 掩 码 。 
Metric: 开销 值 (为 ABR 到 目标 网 络 的 最 小 开销 值 )。 
示例 : 区 域 间 路 由 分 析 
图 3-35 为 区 域 间 路 由 示意 图 。 


Areal Area0 





图 3-35 区 域 间 路 由 


问 : R1 如 何 访问 100.1.1.0/24 网 络 ? 

答 : 

R2 和 R3 在 这 个 网 络 中 属于 ABR, R1 会 收 到 R2 和 R3 产生 的 LSA3, R2 上 产生 
的 LSA3 开销 值 为 11，R3 上 产生 的 LSA3 开销 值 为 21。R1 做 路 由 计算 时 ， 把 ABR 
产生 的 LSA3 的 路 由 当 作 节点 R2 和 R3 上 的 “叶子 ”路 由 ， 所 以 Area0 中 R1 计算 去 
往 100.1.1.0/24 这 个 网 段 的 路 径 是 两 条 路 径 进 行 负载 分 担 ， 下 一 跳 分 别 是 R2 和 R3， 
路 径 开 销 是 31。 
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绪论 : 

R1 计算 其 他 区 域 的 LSA3 路 由 ， 是 把 LSA3 路 由 直接 挂 在 通告 路 由 器 ABR 上 ， 当 成 ABR 
节点 上 的 叶子 节点 ， 所 以 区 域 间 路 由 的 任何 变化 ， 如 成 本 变化 或 路 由 出 现 、 消 失 都 是 ABR 
节点 上 所 挂 的 叶子 节点 的 变化 ， 并 没有 影响 到 Area0 内 SPF 树 形 拓扑 的 变化 。 仅 叶子 节点 
的 变化 所 引起 的 计算 称 为 PRC (Partial Route Calculate) ， 这 种 变化 对 网 络 的 影响 比较 小 。 


3.4.3 ABR 定义 及 其 路 由 通告 


如 图 3-36 所 示 ， 区 域 间 的 路 由 器 R4， 处 于 Area2 和 Area0 之 间 ， 是 ABR，R5 虽 处 
于 Areal 和 Area2 之 间 ， 但 R5 不 是 ABR。 
从 定义 上 ， 至 少 有 一 个 接口 连接 Area0， 
这 样 的 区 域 间 路 由 器 称 为 ABR。 其 他 位 置 的 路 
由 器 ， 如 图 3-36 中 ，R5 虽 在 其 Router LSA 中 
置 ABR 位 ， 但 R5 并 未 在 区 域 间 转 发 路 由 ， 所 
以 它 不 是 一 台 真 正 意义 上 的 ABR。 按 上 面 的 定 
义 ， 区 域 间 路 由 器 可 分 为 三 类 。 
e 区 域 间 路 由 器 一 一 处 在 Area 1 和 
Area2 间 的 路 由 器 ， 如 R5。 
e 区域 间 路 由 器 一 一 在 Area 0 中 有 接 
口 ， 但 没有 邻居 的 路 由 器 ， 如 R3。 
。 区域 间 路 由 器 一 一 在 Area 0 中 有 邻居 
的 路 由 器 ， 如 R4，R4 可 以 称 得 上 为 
ABR。 
ABR 的 定义 及 作用 (RFC 3509) 如 下 。 图 3-36 ”区域 结构 图 
定义 : ABR 处 于 区 域 边界 间 ， 限 制 LSA 泛 洪 的 范围 。 
作用 : 为 本 区 域 通 告 描述 其 他 区 域 的 网 络 ， 即 执行 区 域 间 路 由 通告 、 过 滤 、 聚 合 等 。 
ABR 上 有 如 下 规则 : 
规则 1， 通 过 ABR1 进入 非 骨 干 区 域 的 LSA3 路 由 ， 若 ABR2 在 骨干 区 域 有 OSPF 
邻居 ， 则 该 LSA3 路 由 不 进 ABR2 的 路 由 表 。 此 处 ABR1 和 ABR2 是 处 在 骨干 区 域 0 和 
非 骨干 区 域 1 间 的 两 台 边界 路 由 器 。 
规则 2， 若 ABR2 在 骨干 区 域 没 有 邻居 ， 仪 有 一 个 网 络 出 现在 骨干 区 域 ， 则 ABR1 
所 通告 的 LSA3 路 由 可 以 进入 其 路 由 表 ; 
规则 3, 没有 出 现在 ABR 路 由 表 的 路 由 是 不 会 通告 到 其 他 区 域 的 ， 这 是 边界 上 的 矢 
量 特性 。 
区 域 间 的 上 述 规则 ， 是 为 了 避免 区 域 间 的 环 路 〈 避 免 经 一 个 ABR 进入 普通 区 域 的 
路 由 再 经 其 他 ABR 进入 其 他 区 域 )， 这 就 是 区 域 间 的 水 平分 割 规则 。 
需要 说 明 的 是 ， 上 述 规则 对 LSA3 起 作用 ， 同 样 适 用 于 LSA4， 但 不 适用 于 LSA5。 
练习 1: 
1. 图 3-36 场景 中 ，Area0 中 10.1.2.0/24 网 络 能 否 出 现在 R3 的 路 由 表 中 ? 为 什么 ? 
答 : 10.1.2.0/24 的 路 由 可 以 进入 R3 的 路 由 表 ， 根 据 规 则 2 得 到 。 因 为 R3 不 算 上 ABR。 


Area0 


Areal 


Area2 


10.1.6.0/24 
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2. 图 3-36 场景 中 ，R3 在 Area0 中 10.1.3.0/24 网 络 能 否 出 现在 R2 及 R4 的 路 由 表 
中 ? 为 什么 ? 

答 : R4 的 路 由 表 中 没有 该 路 由 ， 根 据 规则 1。 原 因 是 R3 通告 LSA3 (10.1.3.0/24) 

到 R4，R4 是 ABR， 且 R4 在 骨干 区 域 中 有 OSPF 邻居 ，R4 只 接收 骨干 区 域 的 LSA3 路 
由 ， 所 以 不 会 计算 出 一 条 经 过 Areal 访问 骨干 区 域 的 路 由 。 

R2 的 路 由 表 中 ， 也 不 会 有 该 路 由 ， 根 据 规则 3， 由 于 矢量 特性 ，R4 没有 该 路 由 ， 
R2 也 不 会 有 该 路 由 ， 骨 干 区 域内 没有 对 应 的 LSA3 的 泛 洪 。 

3. 图 3-36 场景 中 ，R5 路 由 表 中 是 否 有 10.1.2.0/24 网 络 ? 

答 : R5 路 由 表 中 有 该 路 由 ， 原 因 是 Rs 不 是 真正 意义 上 的 ABR。 所 以 可 以 接收 源 自 
其 他 区 域 的 路 由 。 但 R5 不 会 继续 向 区 域 2 通告 该 路 由 ， 原 因 是 R5 不 是 ABR， 不 在 区 
域 间 传 递 路 由 。 同 理 ， 图 中 R6 上 的 10.1.6.0/24 的 路 由 虽 能 出 现在 R5 的 路 由 表 里 ， 但 同 
样 进 不 到 区 域 1 里。 

练习 2: 

图 3-37 所 示 为 R4 选 路 访问 100.1.1.0/24 网 
络 的 示意 图 。 

1. 问 : 图 3-37 中 ，R4 访问 100.1.1.0 的 访 
问 路 径 是 什么 ? 

答 : Ri 的 100.1.1.0/24 路 由 在 Area 0 中 以 
LSA3 泛 洪 , R3/R4 收 到 后 , 在 R4 的 LSDB 中 ， 
有 从 Area2 收 到 的 R3 产生 的 LSA3 路 由 ， 还 有 
Area0 中 R2 产生 的 LSA3 路 由 。R4 在 计算 路 由 
时 ， 仅 考虑 Area0 中 的 LSA3， 所 以 ，R4 访问 
100.1.1.0/24 网 络 , 路 由 下 一 跳 是 R2; 这 根据 规 
则 1 得 到 。 原 因 是 R4 是 ABR， 直 接连 着 骨干 图 3-37 R4 选 路 访问 100.1.1.0/24 网 络 
区 域 ， 不 会 考虑 经 过 Area2 访问 骨干 区 域 的 路 由 。 

2. 问 : 图 3-37 中 ，R4 访问 100.1.1.0/24 网 络 是 否 有 明显 的 次 优 路 径 问 题 ? 在 不 改 
动物 理 拓 扑 的 情况 下 ， 如 何 解决 次 优 路 径 问 题 ? 

答 : 存在 次 优 路 径 ， 为 使 R4 访问 100.1.1.0/24 的 流量 经 过 R3 进入 骨干 区 域 , 在 R3 
和 R4 间 添 加 Vlink，Vlink 是 处 在 两 个 ABR R3 和 R4 间 、 经 过 Area2 的 一 条 属于 Area0 
的 逻辑 链 路 。Vlink 建 好 后 ， 数 据 报 文 将 按 Area0 中 Vlink 链 路 学 来 的 路 由 经 R3 进入 骨 
干 区域 ， 这 是 Area0 中 成 本 最 小 的 路 径 。 


3.4.4 ”Area 类 型 及 特殊 类 型 区 域 


3.4.4.1 Area 分 类 

Area 类 型 分 为 四 种 ， 普 通 (Normal) 区 域 、 骨 干 区 域 、Stub 区 域 及 NSSA 区 域 。 

骨干 区 域 就 一 个 ，Area0， 其 他 区 域 连 接 该 骨干 区 域 。 在 其 他 区 域 间 传递 路 由 和 数据 。 

普通 区 域 ，Area 号 不 等 于 0， 承 载 Vlink， 是 最 通用 的 区 域 ， 它 传输 区 域内 路 由 、 区 
域 间 路 由 和 外 部 路 由 。 

Stub 是 一 类 特殊 的 区 域 ， 这 个 区 域 LSA4/5 不 能 接收 。 访 问 OSPF 外 部 网 络 仅 能 通 


Area0 


Area2 
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过 ABR， 所 有 的 流量 及 路 由 通过 ABR 进入 Stub 区 域 。 

Stub 区 域 有 一 个 变 体 , Totally Stub 区 域 , 比 Stub 区 域 添加 了 对 区 域 间 LSA3 的 过 滤 ， 
Stub 区 域 仅 可 通过 ABR 访问 区 域外 任何 目的 地 ， 不 支持 Vlink。 

NSSA 区 域 可 以 有 LSA7， 可 以 有 ASBR， 访 问 任何 外 部 OSPF 区 域 可 以 通过 本 区 域 
ASBR， 也 可 通过 ABR 访问 。 

Totally NSSA 在 上 述 机 制 的 基础 之 上 ， 在 ABR 上 过 滤 区 域 间 LSA3。 

表 3-5 列 出 了 各 种 特殊 类 型 区 域内 产生 的 LSA 及 区 域 的 配置 命令 。 图 3-38 同样 列 
出 了 特殊 区 域 和 普通 区 域内 可 能 有 的 各 种 LSA。 图 中 ，Area5 是 普通 区 域 ， 其 他 非 0 区 
域 是 特殊 类 型 区 域 。 

表 3-5 特殊 类 型 区 域 之 间 的 区 别 



































LSA1/2/3/7 LSA1/2/7 
区 域 中 be ee i 3 ESA 
J - ABR(ASBR)F ABR(ASBR 
LSA 类 型 | LSA3(0.000) | LSA3(0.0.0.0) pe A 
区 域内 允许 部 署 , 
E x ASBR 
ABR/ASBR | 区 域内 不 允许 | ”区 域内 不 允许 we te 到 是 
ASBR ASBR 区 域 边界 路 由 是 即 是 所 局 

et ABR 也 是 ASBR 









Area 
Nssa no-summary 
















LSA 1/2/3 
LSA3 (0.0.0.0/0) 


LSA1/2/3 


LSA7〔 外 部 路 由 ) 
LSA7 (0.0.0.0/0) 





LSA1/2/3 
LSA4/5 


LSA1/2 ASBR 


LSA7〔 外 部 路 由 ) 
ABR 产生 7(0.0.0.0/0) 
ABR 产生 3 (0.0.0.0/0) 












LSA1/2 


仅 LSA3 (0.0.0.0/0) ABR=ASBR 





Area2 
totally stub 


Area4 
Totally NSSA 


图 3-38 ”各 种 类 型 区 域 及 其 LSA 


3.4.4.2 Stub 区 域 
Stub 区 域 是 一 些 特 定 的 区 域 ，Stub 区 域 的 ABR 不 传播 它们 接收 到 的 自治 系统 外 部 
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路 由 ， 在 这 些 区 域 中 路 由 器 的 路 由 表 规 模 以 及 路 由 信息 传递 的 数量 都 会 大 大 减少 。 

Stub 区 域 是 一 种 可 选 的 配置 属性 ， 但 并 不 是 每 个 区 域 都 符合 配置 的 条 件 。 通 常 来 说 ， 
Stub 区 域 位 于 自治 系统 的 边界 ， 是 那些 只 有 一 个 ABR 的 非 骨干 区 域 。 

为 保证 到 自治 系统 外 的 路 由 依旧 可 达 ， 该 区 域 的 ABR 将 生成 一 条 默认 路 由 ， 并 发 
布 给 Stub 区 域 中 的 其 他 非 ABR 路 由 器 。 

配置 Stub 区 域 时 需要 注意 下 列 几 点 。 

。 骨干 区 域 不 能 配置 成 Stub 区 域 。 

。 ”如 果 要 将 一 个 区 域 配 置 成 Stub 区 域 ， 则 该 区 域 中 的 所 有 路 由 器 都 要 配置 Stub 

区 域 属 性 。 

。 Stub 区 域内 不 能 存在 ASBR， 即 自治 系统 外 部 的 路 由 不 能 在 本 区 域内 传播 。 

。 虚 连 接 不 能 穿 过 Stub 区 域 。 

# 配 置 Stub 区 域 

[R3]OSPF 1 

[R3-OSPF-1]Area 25 

[R3-OSPF-1-Area-0.0.0.25]Stub ? 

no-summary Do not send summary LSA into Stub Area 
<cr> Please press ENTER to execute command 

[R3-OSPF-1-Area-0.0.0.25]Stub 

# 边 界 路 由 器 ABR 配置 Stub no-summary 会 将 区 域 类 型 改 为 totally Stub 

3.4.4.3 NSSA 区 域 


NSSA (Not-So-Stubby Area) 区 域 是 OSPF 特殊 的 区 域 类 型 。NSSA 区 域 与 Stub 
区 域 有 许多 相似 的 地 方 ， 两 者 都 不 传播 来 自 OSPF 网 络 其 他 区 域 的 外 部 路 由 。 差 别 在 
于 Stub 区 域 不 能 引入 外 部 路 由 ，NSSA 区 域 能 够 将 OSPF 外 部 路 由 引入 并 传播 到 整个 
OSPF 中 。 

当 区 域 配 置 为 NSSA 区 域 后， 为 保证 到 自治 系统 外 的 路 由 可 达 ，NSSA 区 域 的 ABR 
将 自动 生成 一 条 默认 路 由 (LSA7 的 默认 路 由 )， 并 发 布 给 NSSA 区 域 中 的 其 他 路 由 器 。 
NSSA 的 其 他 内 容 参 考 后 面 的 LSA7 介绍 。 

配置 NSSA 区 域 时 需要 注意 下 列 几 点 。 

e 骨干 区 域 不 能 配置 成 NSSA 区 域 。 

。 如 果 要 将 一 个 区 域 配置 成 NSSA 区 域 ， 则 该 区 域 中 的 所 有 路 由 器 都 要 配置 

NSSA。 

。 虚 连 接 不 能 穿 过 NSSA 区 域 。 

# 配 置 NSSA 区 域 

[R3]OSPF 1 

[R3-OSPF-1]Area 25 


[R3-OSPF-1-Area-0.0.0.25]nssa 
# 同 理 ，NSSA 区 域 边界 路 由 器 如 果 配 置 nssa no-summary， 则 区 域 类 型 为 Totally NSSA 


3.4.5 ”区 域 分 割 


OSPF 对 骨干 区 域 (Area0) 有 特定 的 要 求 : 1， 其 他 区 域 必须 围绕 骨干 区 域 ，2， 骨 干 区 
域 有 且 仅 有 一 个 ， 即 不 能 分 割 ; 3， 所 有 非 骨干 区 域 间 的 路 由 及 数据 流量 互 访 ， 必 须 经 过 
骨干 区 域 。 
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区 域 分 割 主要 分 为 普通 区 域 分 割 和 骨干 区 域 分 割 。 
1， 普 通 区 域 分 宙 
普通 区 域 如 果 出 现 分 割 或 断裂 而 成 为 两 个 独立 的 区 域 ， 这 种 场景 下 ， 路 由 是 可 以 正 
常 在 区 域 间 传递 且 全 网 可 达 的 。 图 3-39 所 示 为 相同 Area 号 的 多 个 区 域 互 连 示意 图 。 


Areal Area0 


Ex 100.1.1.0/24 二 
民 





图 3-39 相同 Area 号 的 多 个 区 域 互 连 


图 3-39 中 ，Areal 间 可 以 互相 学 到 对 方 的 路 由 。 如 R3 上 100.1.1.0/24 出 现在 Areal R4 
的 路 由 表 ，R4 经 R2 访问 R3; 原因 是 Area0 在 区 域 间 传递 路 由 ， 且 携带 100.1.1.0/24 的 
LSA3 上 没有 起 源 区 域 号 的 标识 ， 经 Area0 进入 Areal 符合 区 域 结 构 设 计 。 

尽管 此 种 设计 可 以 工作 ， 但 实际 中 不 要 设计 多 个 相同 ID 的 普通 区 域 ， 即 使 要 配置 ， 
也 要 通过 GRE 等 方案 把 相同 ID 的 普通 区 域 连接 起 来 ， 使 其 看 起 来 是 一 个 完整 的 区 域 。 

说 明 : 

e。 Vlink 是 用 于 连接 分 割 的 骨干 区 域 的 ， 不 能 用 于 普通 区 域 分 割 的 场景 

ee ”GRE 人 隧道 方案 可 以 适用 于 任何 场景 , 但 设计 不 善 ， 易 于 出 现 环 路 及 次 优 路 径 ， 且 
GRE 隧道 具备 承载 数据 的 能 力 ， 使 区 域 设 计 复杂 。 同 时 ，GRE 因 封 装 解 封装 会 导致 开销 较 
大 ， 加 重 边界 路 由 器 负荷 。 


2. 骨干 区 域 分 割 
如 果 是 骨干 区 域 断 开 ， 仍 可 以 使 用 GRE 隧道 来 连通 断 开 的 骨干 区 域 ， 以 下 是 Vlink 
解决 方案 。 


3.4.6 ”Vlink 原理 


Vlink 是 用 来 修复 骨干 区 域 分 割 的 一 种 临时 的 解决 方案 。 在 企业 环境 中 ，Vlink 往往 
能 解决 因 区 域 结 构 设 计 不 合理 而 致 骨干 区 域 断 开 的 场景 。 
3.4.6.1 Vlink 
如 果 上 骨干 区 域 被 分 割 ， 修 复 被 分 割 的 骨干 区 域 ， 要 在 非 骨 干 区 域 上 创建 Vlink 来 维 
持 骨 干 区 域 的 连通 性 。 
。 Vlink 被 看 作 骨 干 区 域 的 点 到 点 的 链 路 ， 其 配置 在 两 个 ABR 间 ， 即 图 3-40 中 
R2 和 R3 之 间 。 
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。 Vilink 在 两 个 ABR 间 创 建 属于 骨干 区 域 的 邻居 关系 。 这 个 邻居 关系 是 单 播 的 ， 
穿 过 区 域 1, 其 单 播 地 址 是 根据 区 域 1 中 的 R2 和 R3 的 RouterLSA 计算 出 来 的 。 
Router LSA 中 用 于 描述 拓扑 的 Link 中 ，Link Data 是 路 由 器 自身 的 接口 卫 ， 这 
个 全 地 址 就 是 Vlink 使 用 的 单 播 地 址 。 

。 承载 Vlink 的 这 个 Areal 称 为 Transit Area， 当 Vlink 创建 好 后 ， 该 区 域 也 像 骨 
干 区 域 一 样 ， 在 图 3-40 中 ，R1 访问 R4 的 流量 经 过 Areal 传递 。Transit Area 
不 能 是 Stub 或 NSSA 区 域 。 


Area0 Areal Area0 





图 3-40 ”Areal0 被 分 割 


3.4.6.2 ”Vlink 的 应 用 场景 

Vlink 的 应 用 场景 依次 如 下 。 

1， 连接 断 开 的 Area0 

场景 1，Area0 分 割 , 如 图 3-40 所 示 , 其 需要 Vlink 连接 两 个 断 开 的 Area0, 在 Areal 
上 创建 连接 Area0 的 逻辑 链 路 Vlink。 

2. 修复 Area2 未 连接 到 Area0 

场景 2, 在 图 3-41 中 ，Area2 没有 直接 连接 到 Area0， 在 Areal 中 创建 Area0 的 逻辑 
链 路 Vlink。 


Area0 Areal Area2 





图 3-41 普通 区 域 没有 连接 到 骨干 区 域 

3. 解决 次 优 路 径 问 题 及 增加 骨干 区 域 的 可 靠 性 

场景 3， 图 3-42 中 ， 存 在 次 优 路 径 及 骨干 区 
域 不 健壮 的 问题 。 

图 3-42 中 , R3 和 R4 间 在 Areal 上 创建 Vlink， 
作用 有 两 个 ， 一 个 作用 是 可 以 用 于 提高 Area0 的 
健壮 性 , 避免 R1 和 R2 之 间 链 路 断 开 而 导致 的 Area0 
分 裂 。 另 一 个 作用 在 于 ， 若 R4 访问 R3 的 G0/0/0 
接口 ， 如 果 不 做 Vlink， 需 要 经 过 Area0 中 的 R2 和 
R1， 而 做 了 Vlink 后 ，R4 访问 G0/0/0 经 过 R5 到 
R3， 这 可 解决 次 优 路 径 问 题 。 即 R4 访问 G0/0/0 接 
口 ， 路 径 R4-R5-R3 优 于 R4-R2-R1-R3。 

3.4.6.3 Vlink 特性 

e。 Vlink 上 可 传递 LSA1/2/3/4 类 型 的 LSA， 图 3-42 Area0 断 开 后 的 Vlink 解决 方案 
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其 他 类 型 不 传递 。LSA5 是 在 整个 OSPF 路 由 域 中 泛 洪 的 LSA， 它 可 以 直接 在 
区 域 间 泛 洪 ，Vlink 不 传递 LSA5。 图 3-40 和 图 3-41 中 ， 若 Area0 中 有 LSA5， 
其 可 以 直接 经 Areal 泛 洪 到 R4， 没 必要 再 经 Vlink 泛 洪 一 次 。 

。 Vlink 是 工作 在 Transit Area 上 的 连接 两 个 ABR 的 虚拟 链 路 ， 该 虚 链 路 属于 区 
域 0， 其 OSPF 链 路 成 本 为 Transit Area 内 两 个 ABR 节点 间 的 最 优 路 径 的 成 本 。 

eVlink 的 单 播 地 址 仅 根 据 Transit Area 内 两 个 ABR 产生 的 Router LSA 决定 ， 并 
不 根据 其 他 LSA 产生 。 如 果 根 据 Router LSA 中 无 法 找到 可 用 卫 地 址 , 则 Vlink 
无 法 建立 起 来 ， 或 如 果 找 到 多 个 IP 地 址 ， 则 成 本 最 小 的 将 是 目标 IP， 如 果 负 
载 分 担 的 话 ， 选 择 随 意 或 第 一 个 地 址 。 

。 Vlink 有 正常 的 OSPF 邻居 关系 ， 周 期 性 发 送 Hello 及 LSA 刷新 ， 如 果 连 续 失 
去 四 个 Hello 报 文 ， 则 Vlink 邻居 关系 Down， 这 和 直 连 链 路 上 判定 邻居 失效 的 
方式 一 致 。 但 车 两 个 ABR 路 由 器 物理 直 连 ，Vlink 建立 后 ， 物 理 链 路 断 开 或 邻 
居 断 开 ， 都 会 致 Vlink 立即 中 断 。 

。 Vlink 仅 用 来 传递 LSA，Vlink 并 不 传递 数据 。 区 域 间 的 数据 传输 要 经 过 Transit 
Area 内 的 最 优 路 径 ， 这 个 路 径 由 ABR 根据 Transit Area 中 的 LSA3 计算 决定 ， 
ABR 先 通过 Vlink 了 解 到 Area0 中 的 网 络 ， 再 根据 Transit Area (Areal) 中 的 
通告 相应 网 络 的 LSA3 确定 访问 Area0 中 该 网 络 的 路 径 。 

e 图 3-43 中 ，Vlink 邻居 建立 起 来 后 ，R3 也 是 连接 Area0 的 ABR，R2 和 R3 会 
在 其 Area0 中 的 Router LSA 中 添加 Type4 类 型 的 Link。 





图 3-43 Vlink 拓扑 
R2 上 Area0 中 LSA1 中 有 以 下 链 路 状态 : 


* Link ID: 3.3.3.3 # Link ID 内 容 是 Vlink 对 端的 路 由 器 的 RouterID 
Data : 10.1.23.2 #Link Data 内 容 是 自己 的 Vlink 的 卫 
Link Type: Virtual 
Metric :2 # Transit Area 内 到 对 方 ABR 的 最 优 路 径 的 成 本 

R3 上 归属 Area0 的 LSA1 中 有 以 下 链 路 状态 : 

*Link ID: 2.2.2.2 #Link ID 内 容 是 Vlink 对 端的 路 由 器 的 RouterID 

Data : 10,1.35.3 #Link Data 内 容 是 自己 的 Vlink 的 人 
Link Type: Virtual 
Metric :2 # Transit Area 内 到 对 方 ABR 的 最 优 路 径 成 本 


Vlink 的 两 个 内 容 : Link ID 代表 Vlink 连接 的 邻居 路 由 器 的 RouterID; Link Data 为 
Vlink 使 用 的 单 播 卫 地 址 。 根 据 上 述 Virtual 类 型 链 路 状态 的 内 容 可 知 ，Area0 的 区 域 通 
过 Vlink 延伸 至 R3。 

3.4.6.4 Vlink 的 不 足 

1. Vlink 使 Transit Area 不 能 对 Area0 路 由 做 聚合 

场景 说 明 : 

图 3-44 中 ，Area 0 中 的 路 由 通过 ABR R2 通告 到 Areal 中 ,为 减少 Area 1 中 路 由 的 
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图 3-44 Area0 向 Areal 聚合 


但 由 于 在 Areal (Transit Area) 上 创建 Vlink 后 ，R2 无 法 再 对 骨干 区 域 路 由 做 聚合 ， 
原因 是 为 了 避免 在 Transit Area 内 出 现 路 由 环 路 。 

原因 说 明 : 

如 果 能 聚合 成 功 的 话 ， 在 图 3-44 中 ，Areal 的 边界 路 由 器 R2 执行 聚合 ， 产 生 LSA3 
(包含 路 由 10.0.0.0/8)，R4 执行 路 由 聚合 ， 产 生 LSA3 (包含 路 由 10.1.0.0/16)，Areal 的 
网 络 结构 是 一 个 线性 的 网 络 ,R3 上 会 收 到 R2 和 R4 通 告 的 聚合 路 由 ,所 以 R3 上 10.0.0.0/8 
路 由 下 一 跳 指向 R2， 而 10.1.0.0/16 路 由 下 一 跳 指 向 R4; 若 R3 收 到 访问 10.1.3.1 的 数据 
包 ，R3 路 由 报 文 到 R4，R4 上 有 Vlink， 所 以 路 由 表 中 有 到 达 10.1.1.0/24、10.1.2.0/24、 
10.1.3.0/24 的 Area0 的 路 由 并 指向 R3，R4 会 送 流量 到 R3，R3 会 送 流量 到 R4， 路 由 环 
路 出 现 。 

若 Vlink 邻居 不 存在 ， 则 R4 不 是 ABR， 不 能 执行 路 由 聚合 , 仅 R2- 上 可 以 执行 路 由 
聚合 ， 环 路 不 会 发 生 。 

知识 点 : Vlink 做 好 之 后 ，Vlink 端点 路 由 器 都 将 成 为 ABR 并 在 区 域 间 传递 路 由 ， 
可 以 执行 聚合 /区 域 间 路 由 过 滤 。 图 3-44 中 ，(1) (2) 处 不 会 产生 聚合 路 由 ，Area0 中 明 
细 路 由 仍 会 通告 到 Areal， 图 中 仅 (3) 处 会 产生 聚合 路 由 。 

2. Vlink 设计 不 当 ， 会 致 网 络 出 现 环 路 

场景 说 明 : 请 分 析 图 3-45 中 R1 和 R7 间 流 量 互 访 所 使 用 的 路 径 ，R3 和 R6 间 建 立 
Vlink。 


Area0 Areal Area0 





图 3-45 在 R3 和 R6 间 建立 Vlink 


126 


| 第 三 章 OSPFv2 及 OSPFv3 | 

(1) 在 没有 创建 Vlink 连接 之 前 

OSPF 区 域 结 构 要 求 非 0 区 域 必须 连接 骨干 区 域 ， 图 3-45 中 ，Area0 被 分 割 为 两 处 ， 
10.1.1.1/32 路 由 经 ABR 路 由 器 (R2 和 R3) 进入 Areal，R5 和 R6 连接 Area0， 根 据 规则 ， 
RS 和 R6 由 于 有 Area0 的 OSPF 邻居 ， 所 以 不 接收 非 骨 干 区 域 学 到 的 LSA3 路 由 10.1.1.1/32。 
区 域 间 的 LSA3 不 会 流向 右 侧 Area0， 所 以 右 侧 Area0 中 没有 该 路 由 。 如 果 不 做 Vlink， 
全 网 左右 两 侧 的 Area0 不 能 互 访 。 

R5 和 R6 不 接收 非 骨干 区 域 的 LSA3 路 由 ， 若 在 R5- 和 /或 R6 上 配置 Vlink 后 ， 
R5/R6 可 以 通过 Vlink 学 到 骨干 区 域 泛 洪 过 来 的 路 由 ， 再 根据 Areal 中 泛 洪 的 LSA3 
路 由 计算 访问 路 径 。 

(2) 在 R3 和 R6 间 建 立 Vlink 连接 后 

R1 访问 R7 的 去 程 流量 (10.1.1.1 一 10.1.7.7): 

。 Rl 通过 R3 通告 的 置 V-bit 的 RouterLSA，R1 把 访问 远 端 Area0 的 数据 包 路 由 

到 R3。 


说 明 : 

左 侧 Area0 访问 右 侧 Area0， 左 侧 Area0 内 路 由 节点 必须 把 数据 包 路 由 到 置 V 的 边界 路 
由 器 , 由 其 再 经 过 TransitArea 至 目标 Area。 在 R1 上 SPF 计 算得 出 的 Area0 路 径 是 R1-R3-R6-R7， 
图 3-45 中 ，R1 访问 R7 上 网 络 ， 数 据 包 仍 然 要 路 由 到 下 一 跳 R3。 


e R3 是 ABR, 它 有 Area0(R1 所 在 Area0 和 R7 所 在 Area) 的 全 部 LSA 及 TransitArea 
(Areal) 的 LSA， 所 以 它 在 计算 访问 路 径 时 考虑 Area0 和 Areal 中 LSA，R3 根 
据 R5 和 R6 通告 的 LSA3 〈10.1.7.7)， 其 路 由 成 本 分 别 是 2 和 11， 再 结合 Areal 
中 的 拓扑 计算 ，R3 得 知 到 10.1.7.7 的 端 到 端 最 优 路 径 是 经 R5 的 R3-R4-R5-R7， 
这 样 数据 包 被 R3 路 由 到 R4。 

。 R4 选 路 根据 区 域 间 的 到 10.1.7.7/32 的 LSA3， 根 据 最 小 成 本 选择 R5 作为 下 
一 跳 。 

综 上 ，RI1 访问 R7 数据 包 的 转发 路 径 是 R1-R3-R4-R5-R7。 

思考 : R2 访问 10.1.7.7 的 访问 路 径 是 什么 ? 

R7 访问 R1 的 回程 流量 (10.1.7.7 一 10.1.1.1): 

。 R6 是 ABR， 通 过 Vlink 学 到 包含 10.11.1/32 的 LSA1，R6 到 达 这 个 目的 路 由 
必然 通过 Transit Area (Areal)， 所 以 同上 面 去 程 的 分 析 过 程 类 似 ，R6 计算 路 
径 ， 同 时 考虑 Area0 和 Areal， 数 据 转 发 路 径 是 成 本 最 小 的 路 径 ， 得 出 的 回程 
路 径 是 成 本 最 小 的 端 到 端 路 径 R6-R5-R4-R2-R1。 

。 R7 处 在 Area0 内 ， 计 算 到 Area0 中 R1 上 的 网 络 ， 路 由 指向 V 置 位 的 ABR 
R6。 

e。 R5 是 ABR， 没 配置 Vlink， 访 问 Rl 走 骨干 区 域 路 径 ， 送 给 Vlink 所 在 的 路 由 
器 R6， 所 以 R5 访问 10.1.1.1/32 下 一 跳 是 R7。 

综 上 ， 回 程 流量 的 路 径 是 R7-R6-R5-R7， 在 R5/R6/R7 路 由 器 之 间 形 成 路 由 

环 路 。 
通过 上 面 的 场景 分 析 ， 结 论 如 下 。 
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@ Vlink 设计 不 当 会 形成 环 路 。 

@ ABR 只 要 在 Area0 有 邻接 ， 其 不 收 Areal 中 的 LSA3 路 由 ， 使 用 Area0 中 置 V 
的 路 由 器 作为 访问 其 他 非 直 连 区 域 的 出 口 。 但 如 果 ABR 是 Vlink 的 端点 ， 则 其 可 以 根据 
Areal 中 的 LSA3 计算 到 骨干 区 域 路 由 。 

@) Vlink 在 R3 和 R6 间 建 立 ， 但 数据 转发 不 代表 一 定 要 经 过 R3 和 R6 路 径 ， 控 制 
平面 和 数据 平面 是 分 开 的 。 

思考 题 ， 如果 Vlink 在 R2 和 R6 之 间 建 立会 有 什么 问题 ? 

(3) 配置 命令 

在 图 3-45 中 ，R3 的 router-id 是 3.3.3.3，R6 的 router-id 是 6.6.6.6。 

2 router-id 3.3.3.3 


area 0.0.0.1 
Vlink-peer 6.6.6.6 


#R6 

ospf 1 router-id 6.6.6.6 
area 0.0.0.1 
Vlink-peer 3.3.3.3 


在 Transit Area 1 中 ，R3 和 R6 互相 知道 对 方 的 Router LSA。 
#Area 1 中 R6 的 Router LSA 


Type :Router 
Lsid : 6.6.6.6 
Advrtr :6.6.6.6 
Ls age :1457 
Len :60 
Options : ABR VIRTUAL E 
seq# : 80000015 
chksum : 0xe9d2 
Link count: 3 
* Link ID: 4.4.4.4 


Data ” :10.1.46.6 ”#R6 上 的 可 达 性 JP 
Link Type: P-2-P 
Metric : 10 
* Link ID: 10.1.46.0 
Data ' :255.255,255.0 
Link Type: StubNet 
Metric ; 10 
Priority : Low 
* Link ID: 10.1,56.6 
Data :10.1.56.6  #R6 上 的 可 达 性 卫 
Link Type: TransNet 
Metric : 1 


#Area 1 中 R3 的 Router LSA: 


Type : Router 

Lsid oe ee 

Adyirtr ‘3.3.3.3 

Ts age : 1224 

Len :48 

Options : ABR VIRTUAL E 
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seq# : 80000010 
chksum : OQx9205 
Link count: 2 
* Link ID: 4.4.4.4 ， 
Data :10.1.34.3 ”#R3 上 可 达 性 人 P 
Link Type: P-2-P 
Metric : 10 
* Link ID: 10.1.34.0 
Paa :255.255.253.0 
Link Type: StubNet 
Metric : 10 
Priority : Low 
从 上 面 的 输出 中 , 可 以 看 到 R3 和 R6 上 有 可 达 性 的 于 ,可 以 知道 Vlink 的 连接 使 用 
的 单 播 地 址 将 在 上 述 的 地 址 组 合 中 找到 ,具体 使 用 哪 对 地 址 将 根据 在 Area 1 中 的 最 小 成 
本 而 定 。 


3.5 LSA4 和 LSA5 


3.5.1 LSA4 


LSA4 (ABR summary) 像 LSA3 一 样 都 是 由 ABR 产生 的 、 并 在 Area 内 泛 洪 的 一 类 
LSA。LSA4 和 LSA3 使 用 相同 的 报 文 格 式 ， 区 别 是 Type 字 域 是 4，Link State ID 字 域 是 
ASBR 路 由 器 的 RouterID，LSA4 的 内 容 是 ASBR 到 ABR 的 成 本 。 


LSA4 报 文 : 
Type : Sum-ASBR #type 4 
Le .111.1 #ASBR 的 RouterID 
Advrtr :6.6.6.6 #ABR 
Lsage :1643 
Len “28 
Options :E # 仅 E-bit 置 位 
seq# :80000001 
chksum :0x5cb3 , 
Tos 0 metric: 48 #ABR 到 ASBR 的 成 本 


图 3-46 中 ， 在 Areal 中 ，R1 是 ASBR，R2 和 R3 为 ABR， 产 生 LSA4， 通 告 各 自 
到 ASBR 的 最 小 成 本 。R4 和 R5 为 ABR, 产生 LSA4, 向 Area2 通告 到 ASBR 的 最 小 成 本 。 
LSA4 仅 当 网 络 中 有 ASBR 时 ， 才 在 区 域 间 由 ABR 产生 并 泛 洪 ， 每 个 区 域 可 通过 LSA4 
计算 出 到 ASBR 的 距离 。 

例 : 图 3-46 中 ，R1 是 ASBR，R2 产生 的 LSA4 通告 到 ASBR 的 成 本 是 100; R3 产 
生 的 LSA4 通告 到 ASBR 的 成 本 是 200; R4 产生 的 LSA4 中 的 成 本 是 373; R5 产生 的 
LSA4 中 的 成 本 是 384。 据 此 可 知 R6 到 R1 路 径 的 负载 分 担 ， 下 一 跳 分 别 是 R2 和 R3; 
R7 到 R1 选择 下 一 跳 是 R4， 端 到 端 成 本 是 387。 

LSA4 的 作用 是 在 区 域 间 计算 到 ASBR 产生 的 外 部 路 由 的 距离 。 
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100.1.1.024 3 
RIP 





图 3-46 LSA4 是 ABR 为 非 ASBR 所 在 区 域 产生 


3.5.2 LSAS 

LSA5 报 文 

Type : External 
Lsid :100.1.1.0 
Adyitt “ 31,1 
Ls age 1681 
Len 36 
Options E 
seq# 80000001 


Net mask ©:255.255.255.0 
TOS0 Metric:1 
Etype 人 
Forwarding Address : 0.0.0.0 
Tag :4800 
Priority :Low 
Ls id: 引入 的 外 部 路 由 的 网 络 号 。 
Adv rtr: Advertising Router， 产 生 的 LSA5 的 路 由 器 RouterID。 
Net mask: 引入 的 外 部 路 由 的 掩 码 。 
Forwarding Address: 可 以 是 0.0.0.0， 也 可 以 是 非 0; 如 果 是 0.0.0.0， 访 问 外 部 网 络 
的 报 文 转发 给 ASBR， 如 果 是 非 0， 报 文 转发 给 该 非 0 地 址 。 
Tag: 用 于 标记 外 部 路 由 的 标签 ， 在 路 由 引入 时 配置 给 外 部 路 由 ， 默 认 值 是 1。 
Metric: ASBR 到 外 部 网 络 的 成 本 。 
Etype: Metric-type 可 以 是 1， 也 可 以 是 2， 默认 是 2。Typel 和 Type2 的 区 别 在 路 由 
表 中 可 以 看 出 来 ，Type2 路 由 仅 考 虑 外 部 成 本 ，Typel 路 由 考虑 的 是 端 到 端的 成 本 (内 外 
成 本 之 和 )。Typel 和 Type2 的 另外 一 个 区 别 是 在 外 部 路 由 的 选 路 上 的 差别 ， 这 可 参考 后 
面 的 OSPF 选 路 规则 章节 。 
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LSA5 作用 

LSA5 区 别 于 LSA3/LSA4，LSA5 仅 负责 通告 OSPF 路 由 域外 其 他 协议 的 路 由 ， 如 
RIP、BGP 等 。 引 入 到 OSPF 后 ， 这 些 外 部 路 由 靠 LSA5 将 其 泛 洪 到 OSPF 路 由 域 。 

LSA5 具有 其 他 LSA 所 没有 的 泛 洪 范围 ，LSA5 能 够 泛 洪 到 所 有 Area， 除 了 特殊 类 
型 区 域 (Stub 及 NSSA)。 图 3-46 中 ，LSA5 由 R1 产生 ， 在 区 域 间 泛 洪 至 Area2， 泛 洪 
期 间 仅 Age 会 增加 ， 其 他 都 没有 变化 。 

LSA5S 的 作用 是 除了 向 路 由 域 中 路 由 器 通告 外 部 路 由 外 ， 还 告知 其 他 路 由 器 如 何 访 
问 该 外 部 网 络 。 根 据 LSA5 中 的 FA 〈Forwarding Address) 地 址 决定 访问 外 部 网 络 是 经 过 
ASBR 还 是 经 过 拥有 FA 地 址 〈 非 0) 的 路 由 器 。 


3.5.3 ” Forwarding 一 Address 作用 


Forwarding-Address， 简 称 FA， 仅 出 现在 LSA5 或 LSA7 中 ， 它 是 数据 包 访问 外 部 
网 络 时 ， 在 数据 报 文 离开 OSPF 路 由 域 时 必须 经 过 的 设备 地 址 。 

本 小 节 仅 介绍 LSA5 中 的 FA, LSA7 中 的 FA 放 到 其 他 章节 介绍 。LSA5 携带 外 部 路 由 ,该 
外 部 路 由 一 定 要 出 现在 路 由 表 中 ， 数 据 包 才 能 访问 到 该 外 部 目的 地 。 而 外 部 路 由 能 否 出 现在 路 
由 表 中 ， 则 要 依赖 于 LSA5S 的 FA 的 可 达 性 ， 如 果 FA 不 可 达 ， 则 LSAS 所 通告 的 外 部 路 由 不 进 
路 由 表 (FA 不 可 达 ，LSA5 路 由 进 路 由 表 没有 意义 )。FA 地 址 可 以 是 全 0， 也 可 以 是 非 0。 

若 FA=0， 数 据 包 要 经 过 ASBR 访问 外 部 网 络 。 如 果 FA! =0， 数 据 包 要 转发 至 拥有 
FA 地 址 的 路 由 设备 ， 再 由 其 转发 到 外 部 网 络 。 

华为 实现 中 ， 如 果 FA=0，LSA5 要 判断 如 何 到 ASBR， 继 而 决定 该 外 部 路 由 能 否 进 
IP 路 由 表 。 如果 ASBR 在 其 他 区 域 , 则 依赖 于 LSA4 来 决定 如 何 到 达 ASBR。 如 果 ABSR 
在 当前 区 域 ， 则 依赖 于 LSA1/LSA2 计算 到 ASBR 的 路 径 。 

如 果 FA! =0， 则 要 根据 OSPF 路 由 表 (Display OSPF Routing) 中 是 否 有 FA 地 址 所 
对 应 的 路 由 来 判断 可 达 性 。 若 不 可 达 ， 则 该 外 部 路 由 不 进 IP 路 由 表 。 

练习 1: Forwarding Address 是 非 0 地 址 的 场景 

场景 描述 : 

3-47 中 , R1 和 R3 处 在 两 个 AS 中 , R1 和 R3 都 运行 BGP 协议 , AS200 向 AS100 
通告 100.1.1.0/24 的 BGP 路 由 。 


AS 100 AS 200 





OSPF Areal OSPF Area0 Loop: 100.1.1.0/24 


图 3-47 FA 地 址 的 生成 
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R1 收 到 该 BGP 路 由 ， 并 把 它 放 到 路 由 表 中 ， 为 使 OSPF 路 由 域 中 其 他 路 由 器 能 访 
问 该 外 部 网 络 ， 把 这 条 BGP 路 由 引入 到 OSPF 中 。 

[Rijdisplay ip routing-table | include 100.1.1.0 

Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations ; 16 Routes : 16 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
100.1.1.0/24 eBGP 255 0 D 10.1.13.3 GigabitEthemet0/0/]1 
# 出 现在 R1 路 由 表 中 的 这 条 BGP 路 由 的 下 一 跳 是 10.1.13.3 
[Rl]ospf 1 
[Rl1-ospf-1]import-route bgp 
[Rl-ospf-llarea 0 


[R1-osp 人 1-area-0.0.0.0]network 10.1.0.0 0.0.255.255 
# 在 Rl 上 引入 该 外 部 路 由 ， 观 察 R1 产生 的 LSA5 
[Rl]display ospf lsdb 
OSPF Process 1 with Router ID 1.1.1.1 
Link State Database 


Area: 0.0.0.0 

Type LinkState ID AdvRouter Age Len Sequence Metric 

Router 4.4.4.4 4.4.4.4 445 36 80000003 1 

Router 了 2 22:2 2:2.2.2 443 60 8000000B 1 

Router 1.1.1.1 1.1.1.1 315 60 80000008 1 

Network 10.1.24.2 2 444 32 80000001 0 

Network 10.1.12.2 2.2.2.2 888 32 80000002 0 

AS External Database 2 

Type LinkState ID AdvRouter Age Len Sequence Metric 

External 100.1.1.0 td 315 36 80000001 2 


[R1] 
# 观 察 LSA5 中 的 FA 地 址 为 BGP 路 由 的 下 一 跳 地 址 
[R2]dis ospf lsdb ase 100.1.1.0 
OSPF Process 1 with Router ID 1.1.1.1 

Link State Database 
Type : External 
Lsid :100.1.1.0 
Advrtr :1.1.1.1 


Lsage "921 

Len :36 
Options : E 

seq# : 80000001 


chksum :Oxfe4c 
Netmask :255.255.255.0 


TOS0 Metric: 1 
Etype ?这 
Forwarding Address : 10.1.13.3 
Tag | 
Priority :Low 
阁 论 : 


ASBR 上 的 接口 如 果 满 足以 下 四 个 规则 ， 则 ASBR 上 外 部 路 由 的 下 一 跳 地 址 就 是 该 外 部 
路 由 LSA5 的 FA， 否则 该 外 部 路 由 LSA5 中 的 FA 为 0。 
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该 外 部 路 由 的 下 一 跳 地 址 所 在 网 段 的 接口 要 发 布 到 OSPF 中 。 
该 外 部 路 由 的 下 一 跳 地 址 所 在 网 段 的 接口 没有 被 设置 成 silent 接口 。 
下 一 跳 地 址 所 在 网 段 的 接口 OSPF 网 络 类 型 不 是 Point-to-Point 网 络 类 型 。 
下 一 跳 地 址 所 在 网 段 的 接口 OSPF 网 络 类 型 不 是 Point-to-Multipoint 网 络 类 型 。 


入 一 


根据 上 述 规 则 ， 图 3-47 中 ，R1 上 BGP 路 由 是 100.1.1.0/24， 其 下 一 跳 为 10.1.13.3， 
该 下 一 跳 地 址 所 在 网 段 的 ASBR 的 接口 是 图 中 的 G0/0/1 接口 ， 该 接口 已 被 发 布 到 OSPF 
中 ; 该 接口 没有 被 Silent 掉 ， 默 认 的 OSPF 网 络 类 型 为 Broadcast 类 型 ， 满 足 FA 非 0 的 
条 件 ， 所 以 R1 产生 LSA5 时 把 该 BGP 路 由 的 下 一 跳 地 址 作为 FA 地 址 。 

路 由 被 引入 到 OSPF 后 ，R2 和 R4 收 到 该 LSA5， 根 据 其 中 的 FA， 查 各 自 的 OSPF 
路 由 表 (Display OSPF Routing)， 来 判定 LSA5 的 FA 是 否 可 达 。 

[R4]display ospf routing 


OSPF Process 1 with Router ID 4.4.4.4 


Routing Tables 

Routing for Network 

Destination Cost Type NextHop AdvRouter Area 

10.1.24.0/24 1 Transit 10.1.24.4 4.4.4.4 0.0.0.1 

10.1.1.1/32 2 Inter-area 10.1.24.2 2223 0.0.0.1 

10.1.2.2/32 1 Inter-area 10.1.24.2 2 0.0.0.1 

10.1.12.0/24 2 Inter-area 10.1.24.2 :22 0.0.0.1 

10.1.13.0/24 3 Inter-area 10.1.24.2 2222 0.0.0.1 
# 在 OSPF 路 由 表 中 ， 看 到 10.1.13.0/24 路 由 ，FA 地 址 可 达 。 

Routing forASEs 

Destination Cost Type Tag NextHop AdvRouter 

100.1.1.0/24 1 Type2 1 10.1.24.2 L111 

Total Nets: 6 


Intra Area: ] InterArea:4 ASE:1 NSSA:0 


[R4ldisplay ip routing-table 
Route Flags: R-relay, D-download to fib 


pe 


Routing Tables: Public 


Destinations : 12 Routes : 12 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
10.1,1.1/32 OSPF io bs D 10,1.24.2 GigabitEthernet0/0/1 
10.1.2.2/32 OSPF 10% 7 D 10.1.24.2 GigabitEthernet0/0/1 
10.1.12.0/24 OSPF 10:= 2 D 10.1.24.2 GigabitEthernet0/0/1 
10.1.13.0/24 OSPF 03 De 10.24.2 GigabitEthernet0/0/1 
10.1.24.0/24 Direct 0 0 D 10.1.24.4 GigabitEthernet0/0/1 
10.1.24.4/32 Direct . 0 0 D 127.0.0.1 GigabitEthernet0/0/1 
10.1.24.255/32 Direct 0 0 D 127.0.0.1 GigabitEthernet0/0/1 
100.1.1.0/24 O ASE 150 1 D 10.1.24.2 GigabitEthernet0/0/1 
127.0.0.0/8 Direct 0 0 D 127.0.0.1 InLoopBack0 
01132: Dect 9 0 D 127.0.0.1 InLoopBack0 
127:255.255.255/32 Direct 0 0 D 127.0.0.1 InLoopBack0 
245.255253.255132 Direot .0 也 ”127.0.0 江 InLoopBack0 


# 外 部 路 由 也 出 现在 路 由 表 中 
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只 要 Display OSPF Routing 中 能 看 到 FA 地 址 所 对 应 的 路 由 ， 则 : 

。 ”该 外 部 路 由 能 进入 路 由 表 ; 

e。 访问 该 外 部 网 络 的 数据 将 根据 FA 路 由 来 转发 ; 

。 当前 路 由 器 在 OSPF 路 由 域 中 的 成 本 是 根据 该 FA 路 由 计算 出 来 的 ; 

e FA 地 址 所 对 应 路 由 一 定 要 是 OSPF 区 域内 (Intra-Area) 或 区 域 间 (Inter-Area) 
路 由 ，FA 路 由 不 能 是 其 他 外 部 路 由 ，LSA5 不 会 靠 OSPF 外 部 路 由 和 非 OSPF 
协议 路 由 决定 FA 地 址 可 达 性 。 

练习 2: ForwardingAddress=0.0.0.0 场景 

根据 图 3-47，R1 上 BGP 路 由 是 100.1.1.0/24， 其 下 一 跳 为 10.1.13.3， 该 下 一 跳 地 址 

所 对 应 的 ASBR 接口 为 图 中 G0/0/1 接口 。 

[Rljospf 1 

[R1-ospf-1]import-route bgp 

[R1-ospf-l]area 0 


[R1-ospf-1-area-0.0.0.0]network 10.1.12.0 0.0.255.255 
# 此 处 并 没有 发 布下 一 跳 地 址 所 对 应 的 网 段 到 OSPF 中 ，10.1.13,0/24 路 由 在 OSPF 中 不 可 达 


OSPF 不 会 把 LSA5 中 FA 地 址 置 为 路 由 不 可 达 的 10.1.13.3， 所 以 ， 此 场景 无 法 
满足 FA! =0 的 规则 。 以 下 输出 是 当 10.1.13.0/24 没有 发 布 到 OSPF 时 的 命令 输出 ， 


可 看 到 FA=0。 
<R4>display ospf routing 
OSPF Process 1 with Router ID 4.4.4.4 
Routing Tables 
Routing for Network 
Destination Cost Type NextHop AdvRouter Area 
#OSPF 域 中 没有 10.1.13.0/24 路 由 
10.1.24.0/24 1 Transit 10.1.24.4 4.4.4.4 0.0.0.1 
10.1.1.1/32 号 Inter-area 10.1.24.2 2.22.2 0.0.0.1 
10.1.2.2/32 1 Inter-area 10.1.24.2 2 0.0.0.1 
10.1.12.0/24 2 Inter-area 10.1.24.2 2.2.2.2 0.0.0.1 
Routing for ASEs ， 
Destination Cost Type Tag NextHop AdvRouter 
100.1.1.0/24 1 Type2 1 10.1.24.2 有 
Total Nets: 5 
Intra Area: ] InterArea: 3 ASE:1 NSSA:0 
# 


<R4>display ospf lsdb ase 
OSPF Process 1 with Router ID 4.4.4.4 


Link State Database 
Type : External 
Lsid :100.1.1.0 
Adv :1 
Ls age “2 
Len 1 86 
Optiongs : E 
seq# : 80000002 


chksum : 0xaeb6 
Netmask :255.255.255.0 
TOS 0 Metric:1 | 
Etype :2 
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Forwarding Address : 0.0.0.0 
#FA 地 址 为 0.0.0.0 
Tag mi | 
Priority :Low ， 
在 FA 为 0 的 场景 下 , 外 部 路 由 是 否 进 路 由 表 要 依赖 于 产生 LSA5 的 通告 路 由 器 (ASBR ) 
是 否 可 达 。 上 述 FA! =0 的 4 条 规则 中 ,只 要 有 任何 一 条 不 满足 ， 则 FA 地 址 就 是 0.0.0.0; 这 
时 数据 包 要 经 过 ASBR 访问 外 部 目标 网 络 ， 如 何 到 ASBR 则 依赖 于 LSA1/2 或 LSA4。 


总 缩 : 
FA 为 0， 访 问 外 部 路 由 的 数据 包 转 发 给 ASBR。 如 果 FA 不 为 0， 则 访问 该 外 部 路 由 的 
数据 包 将 被 转发 给 该 FA 地 址 。 
e ”LSA5 中 的 FA 决定 外 部 路 由 能 否 进 路 由 表 ， 及 转发 路 径 。 
e LSA5 中 的 FA 的 内 容 。 
@ 如 果 FA=0， 区 域内 根据 LSA1/2 计算 路 由 ， 区 域 间 根 据 LSA4 计算 路 由 。 
9 如果 FA!L =0， 区 域内 根据 LSA1/2 计算 路 由 ， 区 域 间 根 据 LSA3 计算 路 由 。 


LSA5 泛 洪 : 

。 LSA5 可 以 在 区 域 间 泛 洪 ， 这 与 LSA3 和 LSA4 不 同 。 

e 在 骨干 区 域 分 割 或 普通 区 域 不 连接 骨干 区 域 的 场景 下 ，LSAS 依然 可 以 不 经 
Virtual Link， 直 接 经 Transit 区 域 流入 其 他 区 域 。 这 与 LSA1/2/3/4 需要 经 Vlink 
传递 到 其 他 区 域 不 同 ， 这 是 因为 LSA5 和 其 他 类 型 LSA 的 泛 洪 范围 不 一 致 ， 
LSA5 没有 必要 在 Vlink 和 TransitAreal 中 重复 泛 洪 。 图 3-48 中 ，LSA5 不 在 
Vlink 上 传递 。 

。 图 3-48 中 ，LSA5 在 没有 Vlink 的 情况 下 ，R5 引入 的 外 部 路 由 依然 可 以 进入 
Area2， 但 却 无 法 进入 路 由 表 。 





图 3-48 LSA5 在 区 域 间 泛 洪 


图 3-48 中 ，R1 和 R2 如 果 没 有 Vlink，Area3 中 ASBR RS 产生 的 LSA5 可 以 流入 
Area2， 在 R3 的 LSDB 中 可 以 看 到 LSA5。 但 在 R3 的 路 由 表 中 看 不 到 这 条 外 部 路 由 。 
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问 : 为 什么 LSA5 所 通告 的 路 由 不 出 现在 R3 的 路 由 表 中 ? 
答 : LSA5 虽 可 以 直接 流入 Area2， 但 LSA5 所 通告 路 由 能 否 进入 路 由 表 则 依赖 于 
LSA5 中 FA 地 址 的 可 达 性 。 如 果 FA=0.0.0.0， 则 LSA5 依赖 于 LSA4; 如 果 FA! =0， 则 
依赖 于 FA 地 址 路 由 (使 用 LSA3 通告 ;， 由 于 区 域 分 制 , LSA3/LSA4 都 不 能 流入 Area2， 
所 以 LSA5 的 路 由 无 法 进入 路 由 表 。 


络 论 : 

LSA5 依赖 于 LSA4 或 LSA3 来 计算 OSPF 路 由 域内 的 访问 路 径 。LSA3/LSA4 在 区 域 间 有 水 
平分 割 规则 能 避免 区 域 间 路 由 所 致 的 环 路 , LSA3/LSA4 无 环 , 则 依赖 LSA3/4 的 LSA5 也 无 环 。 
这 就 解释 了 为 什么 LSA5 没有 像 LSA3 一 样 对 区 域 结构 有 要 求 , 还 可 以 经 ABR 泛 洪 到 任何 区 
域 ， 却 不 易 出 现 环 路 的 原因 。 


3.5.4 场景 分 析 1: 外 部 路 由 的 访问 路 径 


场景 描述 : 

R9、R11 和 R12 处 在 IS-IS 路 由 域 中 ，R9 及 其 他 路 由 器 处 在 OSPF 路 由 域 中 。R9 
和 了 RIL 有 IS-IS 邻居 关系 ， 同 时 和 R8 有 OSPF 邻居 关系 。R8、R9 和 R11 接 在 同一 个 以 
太 网 络 上 。 接 口 PP 地 址 分 别 为 10.1.123.8、10.1.123.9 及 10.1.123.11。 


IS-IS OSPF Area200 R6 OSPF Area0 OSPF Areal00 


| 


GO/O/1 ea 





图 3-49 OSPF 多 区 域 


IS-IS 路 由 域 中 R12 通告 路 由 100.1.1.0/24。 

R9 上 运行 IS-IS 和 OSPF, 在 R9 IP 路 由 表 中 有 IS-IS 路 由 100.1.1.0/24, 其 Next-Hop 
是 10.1.123.11。R9 上 引入 IS-IS 路 由 到 OSPF， 并 设置 metric-type 为 typel。 

图 中 ， 以 太 网 链 路 成 本 为 1， 串 行 链 路 成 本 为 48。 

问 : R8 和 RS5 的 选 路 结果 是 什么 ? 

分 析 过 程 : 

1 RS8 选 路 分 析 

R9 是 ASBR， 引 入 IS-IS 路 由 后 ， 产 生 LSA5 (100.1.1.0/24)。 根 据 FA 非 0 的 规则 : 
路 由 表 中 外 部 路 由 下 一 跳 地 址 10.1.123.11，ASBR 所 在 接口 G0/0/0 已 发 布 到 OSPF 中， 
接口 G0/0/0 网 络 类 型 为 Broadcast 类 型 ， 且 没有 被 配置 为 silent 接口 ， 所 以 LSA5 中 FA 
地 址 是 外 部 路 由 的 下 一 跳 地 址 10.1.123.11。 
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R8 路 由 器 收 到 LSA5 后 ，FA 为 10.1.123.11， 该 地 址 对 R8 而 言 是 直 连 网 段 上 可 达 地 
址 。 所 以 R8 把 外 部 路 由 100.1.1.0/24 路 由 加 到 路 由 表 ， 设 置 其 下 一 跳 地 址 为 10.1.123.11， 
此 处 需要 说 明 的 是 ， 下 一 跳 地 址 并 不 是 通告 LSA5 的 ASBR， 而 是 10.1.123.11， 是 图 3-49 
中 的 R11。 
此 处 的 下 一 跳 行为 可 使 OSPF 在 最 后 一 跳 网 段 上 避免 次 优 路 径 ， 减 少 额 外 不 必要 的 
一 跳 。 另 外 ， 通 过 本 例 也 可 得 出 : 如 果 FA! =0， 该 FA 地 址 一 定 不 在 ASBR 上 。 
2.R5 选 路 分 析 
图 3-49 中 ，Area 200 和 Area 0 是 双 ABR 相连 ，R6 和 R7 是 ABR，R5 上 FA 地 址 
所 对 应 的 路 由 为 10.1.123.0/24，R5 上 Display OSPF Routing 中 ，10.1.123.0/24 的 下 一 跳 
地 址 是 10.1.56.7。 
R5 路 由 表 中 : 
e。 10.1.123.0/24 [150/3] 10.1.56.7, 此 处 成 本 3 是 外 部 路 由 在 OSPF 内 部 的 成 本 。 
e。 100.1.1.0/24 若 metric-type=2， 路 由 表 显 示 : 
100.1.1.0/24 [150/1], next-hop 10.1.56.7。 
#metric=] 是 外 部 成 本 。 
e 100.1.1.0/24 若 metric-type=1， 路 由 表 显 示 ; 
100.1.1.0/24 [150/4]，next-hop 10.1.56.7。 
# 端 到 端 成 本 是 内 部 成 本 3+ 外 部 成 本 1。 
说 明 : 
不 论 LSA5 是 以 metric-type=1 或 2 的 方式 导入 路 由 ， 其 出 现在 路 由 表 中 的 下 一 跳 使 用 
10.1.123.0/24 路 由 的 下 一 跳 。OSPF 路 由 域内 部 的 成 本 使 用 的 是 10.1.123.0/24 的 成 本 。 


OSPF Area200 R6 OSPF Area0 OSPF Areal00 


~ 


, Pe ] 


| GO/0/0 


图 3-50 RS 访问 外 部 网 络 的 路 径 R5-R7-R8-R11-R12 





3.5.5 “场景 分 析 2: 外 部 路 由 计算 


外 部 路 由 是 由 ASBR 通过 LSA 5 在 OSPF 路 由 域内 泛 洪 的 ，LSA 5 会 在 整个 路 由 域 
泛 洪 。 以 Area0 为 例 ， 请 分 析 Area0 内 外 部 路 由 的 选 路 计算 过 程 。 

分 析 过 程 如 下 。 

OSPF 域内 的 路 由 器 在 计算 外 部 路 由 时 ， 还 需要 用 到 LSA 4 或 LSA3， 此 场景 假设 
FA=0， 如 图 3-51 所 示 。 
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图 3-51 外 部 路 由 计算 


ABR1 和 ABR2 会 各 产生 LSA4, 用 于 通告 ASBR 的 位 置 ，ABR1 产生 LSA4 (Cost=10)， 
ABR2 产生 LSA4 (Cost=20)。 

LSA5 在 Areal 和 Area0 之 间 直 接 泛 洪 ， 不 修改 。 在 Area0，R1 在 做 路 由 计算 时 ， 
先 执 行 SPF 计算 ， 计 算 所 得 到 的 最 小 成 本 路 径 树 拓扑 以 R1l 自己 作为 树 根 ，ABR1 和 ABR2 
是 树 上 的 两 个 节点 。 

LSA5 路 由 作为 叶子 节点 直接 挂 在 ABR1 和 ABR2 上 ， 成 本 如 图 3-52 所 示 。 

R1 计算 到 外 部 路 由 100.1.1.0/24 的 路 由 ， 一 条 路 
是 经 ABR1, 成 本 是 20+10+1; 另外 一 条 路 是 经 ABR2， 
成 本 是 10+20+1。 ht 

所 以 R1 访问 100.1.1.0/24， 负 载 分 担 ,成 本 是 31 
( 注 : 此 处 假设 外 部 路 由 metric-type 为 1， 如果 metric- 
type 为 2， 计 算 成 本 没有 变化 ， 只 不 过 是 路 由 表 里 只 
记录 外 部 成 本 而 已 )。 

100.1.1.0/24 


说 明 : LSA5 

此 处 的 ABR1 和 ABR2 上 的 路 由 处 理 行 为 和 对 区 域 间 图 3-52 Area0 最 小 成 本 树 
路 由 的 处 理 行为 一 致 ， 若 外 部 路 由 发 生变 化 ， 仅 重新 计算 ABR 节点 上 叶子 路 由 的 变化 即 
可 ， 不 需要 触发 区 域 0 中 FULL SPF 或 iSPF 计算 ， 仅 局 部 路 由 需要 重新 计算 。 





3.6 NSSA 及 LSA7 


3.6.1 NSSA 区 域 


NSSA (Not So Stubby Area) 是 一 类 特殊 的 区 域 ， 区 别 于 Stub 区 域 ， 可 以 在 NSSA 
中 部 署 ASBR， 并 引入 外 部 路 由 ， 不 需要 经 过 Area 0 访问 外 部 目标 网 络 ，NSSA 区 域 如 
图 3-53 所 示 。 

NSSA 区 域 ; 

“OSPF 规定 Stub 区 域 是 不 能 引入 外 部 路 由 的 ， 这 样 可 以 避免 大 量 外 部 路 由 对 Stub 
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区 域 路 由 器 带宽 和 存储 资源 的 消耗 。 对 于 既 需 要 引入 外 部 路 由 又 要 避免 外 部 路 由 带 来 的 
资源 消耗 的 场景 ，Stub 区 域 就 不 再 满足 需求 了 ， 因 此 产生 了 NSSA 区 域 。” 


Areal NSSA R2 Area0 R4 Area2 





图 3-53 NSSA 区 域 


OSPF NSSA 区 域 (Not-So-Stubby Area) 是 OSPF 新 增 的 一 类 特殊 的 区 域 类 型 。 

NSSA 区 域 和 Stub 区 域 有 许多 相似 的 地 方 。 两 者 的 差别 在 于 ，NSSA 区 域 能 够 将 外 
部 路 由 引入 并 传播 到 整个 OSPF 路 由 域 中 ， 同 时 又 不 会 学 习 来 自 OSPF 网 络 其 他 区 域 的 
外 部 路 由 。 


3.6.2 NSSA ABR=ASBR 


NSSA 区 域 连接 骨干 区 域 ， 其 区 域 边界 路 由 器 是 ABR， 同时 也 是 ASBR。 华 为 的 NSSA 
区 域 边界 路 由 器 默认 向 NSSA 区 域内 泛 洪 LSA7 默认 路 由 ， 如 图 3-53 所 示 。 
1. NSSA 区 域 边界 路 由 器 ABR 的 特性 


e ABR 在 Areal 和 Area0 间 传 递 区 域 间 路 由 。 

。 LSA7 ( 置 P 位 ) 经 ABR 7/5 翻译 后 ， 产 生 LSA5S 泛 洪 到 Area0 及 其 他 区 域 。 

。 默认 情况 下 ， 向 NSSA 区 域 通告 LSA7 默认 路 由 。 

e ”如 果 区 域 类 型 为 Totally NSSA，ABR 也 可 以 向 NSSA 区 域 产生 LSA3 的 默认 
路 由 。 

2. LSA7 作用 

。 Type7LSA 是 为 了 支持 NSSA 区 域 而 新 增 的 一 种 LSA 类 型 , 用 于 通告 引入 的 外 
部 路 由 信息 。 

e Type7 LSA 由 NSSA 区 域 的 自治 域 边界 路 由 器 (ASBR) 产生 ， 其 扩散 范围 仅 
限于 ASBR 所 在 的 NSSA 区 域 。 


。 NSSA 区 域 的 区 域 边界 路 由 器 (ABR) 收 到 Type7 LSA 时 ， 会 有 选择 地 将 其 转 
化 为 Type5 LSA， 以 便 将 外 部 路 由 信息 通告 到 OSPF 网 络 的 其 他 区 域 。 

。 LSA5/LSA4 不 会 流入 NSSA 区 域 ， 所 以 Areal 的 ABR 会 各 自 注 入 LSA7 的 默 
认 路 由 到 Areal， 这 样 区 域内 路 由 器 可 以 通过 默认 路 由 访问 外 部 网 络 ，ABR 同 
时 也 是 ASBR。 

。 LSA7 的 FA 一 定 要 为 非 0， 用 于 在 区 域 间 选 路 。 
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需要 强调 的 一 点 是 LSA7 的 FA 地 址 和 LSA5 的 FA 内容 上 有 如 下 区 别 。 

LSA5 的 FA 可 以 是 0 和 非 0 两 种 情况 。 

LSA7 的 FA 值 如 下 。 

(1) 在 NSSA 区 域 边界 路 由 器 上 引入 外 部 路 由 ， 产 生 LSA7， 其 FA 地 址 为 0。 协议 规 定 
FA=0 的 LSA7 的 路 由 是 不 会 被 通告 到 骨干 区 域 的 。 

(2) FA 不 为 0 的 情况 。 在 NSSA 中 ，ASBR 引入 的 外 部 路 由 ， 除 上 面 特例 外 ， 都 是 非 0， 
LSA5 的 4 条 规则 同样 适用 LSA7。 

e@ 如 果 满 足 4 条 规则 ，FA! =0， 地 址 是 ASBR 上 外 部 路 由 的 下 一 跳 地 址 。 

。 如果 不满 足 菜 条 规则 ，FA! =0， 地 址 是 ASBR 上 某 个 接口 IP 地 址 ， 优 选 回环 接口 

地 址 ， 如 果 没 有 回环 接 只 ， 则 使 用 物理 接 只 地 址 。 


3.6.3 LSA7 翻译 


在 Areal 中 LSA7 作用 和 LSAS 一 致 ， 有 相同 的 格式 , 包括 外 部 路 由 及 掩 码 、Forwarding- 
Address Tag、Cost-Type 及 Cost。 
LSA7 与 LSA5 的 不 同 之 处 : 
。 LSA7 仅 在 NSSA 区 域 里 泛 洪 ; 
。 LSA7 的 FA 为 非 0; 如 果 为 0， 则 不 会 被 ABR 翻译 为 LSA5。 
。 ”外 部 路 由 在 NSSA 区 域 里 使 用 LSA7 来 传递 , 在 其 他 区 域 由 LSA5S 来 传递 , ABR 
负责 做 7/5 翻译 。 
。 LSA7 中 选项 位 P-bit (Propagate bit) 用 于 告知 翻译 路 由 器 该 条 Type7 LSA 是 否 
需要 翻译 。 
。 缺 省 情况 下 ， 转 换 路 由 器 是 NSSA 区 域 中 Router ID 最 大 的 区 域 边 界 路 由 器 。 
。 只 有 P-bit 置 位 并 且 FA (Forwarding Address) 不 为 0 的 Type7LSA 才能 转化 为 
Type3 LSA。 
。 若 在 ABR 上 引入 外 部 路 由 ， 产 生 的 Type7 LSA 不 会 置 P-bit， 所 以 不 会 再 被 通 
告 到 Area0。 
华为 NSSA 区 域 中 路 由 器 可 以 使 用 如 下 命令 : 
nssa [ default-route-advertise | flush-Waiting-timer interval-value | no-import-route | no-summary | set-n-bit | suppress- 
forwarding-address | translator-always 
nssa translator-always 可 以 指定 7/5 转换 器 。 
nssa suppress-forwarding-address 命令 可 以 指定 在 7/5 转换 器 翻译 时 ， 修 改 默认 的 FA 
地 址 为 0。 
nssa default-route-advertise 可 以 指定 ABR 或 任何 NSSA 区 域 中 路 由 器 产生 LSA7 默 
认 路 由 。 
说 明 : 
当 NSSA 区 域 中 有 多 个 ABR 时 ， 系 统 会 根据 规则 自动 选择 一 个 ABR 作为 转换 器 ， 缺 省 
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情况 下 NSSA 区 域 选择 Router ID 最 大 的 设备 。 通 过 在 ABR 上 配置 translator-always 参数 ， 可 
以 将 任意 一 个 ABR 指定 为 转换 器 。 也 可 以 同时 指定 两 个 ABR 为 转换 器 ， 可 以 通过 配置 
translator-always 来 指定 两 个 转换 器 同时 工作 。 也 可 用 于 固定 一 台 路 由 器 为 转换 器 ， 防 止 由 
于 转换 器 变动 而 引起 的 LSA 重新 泛 洪 。 


3.6.4 场景 分 析 1: 负载 分 担 及 次 优 路 径 


场景 描述 
如 图 3-54 所 示 , 区 域 1 是 NSSA 区 域 ，R2 和 R3 都 是 ABR， 如 果 在 R1 上 引入 外 部 
路 由 100.1.1.0/24， 其 产生 的 LSA7 将 在 区 域 1 中 泛 洪 。 


NSSA Areal 






100.1.1.024 于 


图 3-54 NSSA 区 域 中 的 负载 分 担 及 次 优 路 径 问 题 


需求 

(1) 如 果 Rl1 上 有 回环 接口 Loopback0， 其 地 址 为 10.1.1.1/32， 并 引入 到 OSPF 中 。 
请 问 ，Area0 中 ，R4 如 何 访问 100.1.1.0/24? 

(2) 如 果 使 用 nssa translator-always 命令 ， 同 时 置 R2 和 R3 为 7/5 转换 器 ， 二 者 都 产 
生 LSA5。 请 问 ，Area0 中 R4 如 何 访问 100.1.1.0/24 的 网 络 ? 

(3) 如 果 R1 上 没有 回环 接口 ， 引 入 外 部 路 由 100.1.1.0/24 后 ， 若 LSA7 中 FA=10.1.12.1， 
请 问 ，R4 访问 100.1.1.0/24 时 ， 访 问 路 径 是 怎样 的 ? 

分 析 过 程 

(1) 如 果 R1 上 引入 外 部 路 由 100.1.1.0/24， 其 产生 的 LSA7 中 FA!=0， 华 为 设备 优 
选 回环 地 址 作为 FA〈FA=10.1.1.1)。 图 中 ，R4 根据 链 路 成 本 ， 计 算出 到 10.1.1.1/32 路 由 
的 路 径 是 负载 分 担 ， 由 于 OSPF 访问 外 部 路 由 100.1.1.0/24 根据 FA 地 址 来 选择 路 径 ， 所 
以 R4 到 100.1.1.0/24 的 路 由 在 R4 上 是 负载 分 担 的 。 

(2) 使 用 nssa translator-always 命令 后 ，R2 和 R3 同时 执行 7/5 转换 ， 二 者 都 向 Area0 
通告 LSA5， 两 份 生成 的 LSA5 都 没有 修改 LSA7 的 内 容 ， 仅 AdvertisingRouter 是 R2 和 
R3, 被 修改 成 R2 和 R3 的 RouterID。 两 份 产生 的 LSA5S 中 , FA 地 址 是 一 样 的 内 容 , Area0 
中 R4 根据 FA 地 址 执行 选 路 。 

所 以 R4 选 路 结果 依然 是 负载 分 担 , 但 由 于 Area0 中 每 条 路 由 有 两 份 LSA5， 所 以 系 
统 开销 有 所 增加 。 
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(3) 修改 图 中 的 环境 ， 去 掉 回环 接口 后 ， 重 新 引入 外 部 路 由 ， 此 时 ，R1 会 选择 物理 
接口 的 卫 地 址 充当 FA。 如 果 FA=10.1.12.1， 从 图 3-54 可 知 ，R4 访问 10.1.12.1 选 路 经 
过 R2。 如 果 ASBR R1 引入 大 量 外 部 路 由 ，FA 地 址 都 一 样 , 访问 任何 外 部 网 络 都 要 经 过 
R2， 如 果 R2 是 性 能 较 低 的 设备 ， 则 会 有 次 优 路 径 或 瓶颈 。 

如 何 解 决 这 种 次 优 路 径 问 题 呢 ? 

解决 方法 

3-54 中 ， 在 区 域 边界 路 由 器 R2/R3 上 ， 配 置 NSSA Translator-always 后 ， 在 7/5 
转换 时 ， 强 制 R3 在 产生 LSA5S 时 ， 抑 制 其 中 的 FA， 则 在 Area0 的 LSDB 中 ， 出 现 两 份 
LSA5， 一 份 经 R2 产生 ，FA=12.1.1.1; 一 份 经 R3 产生 ，FA=0.0.0.0。 根 据 FA 的 内 容 可 
知 , 若 转 发 数据 报 文 到 100.1.1.0/24, 报 文 若 转发 给 10.1.12.1, 开销 是 30; R3 产生 的 LSA5， 
其 FA=0， 报 文 转发 给 R3， 其 路 径 开销 是 10。R4 计算 外 部 路 由 时 ， 选 择 路 由 成 本 小 的 ， 
所 以 路 由 表 里 到 100.1.1.0/24 路 由 的 下 一 跳 是 R3， 如 果 R3 路 径 失 效 不 可 达 ， 则 备份 路 
径 是 R2。 

缩 论 : 

由 于 执行 7/5 翻译 的 LSA7 的 FA 值 不 为 0， 翻 译 后 的 LSA5 的 FA 值 没 有 变化 ， 在 骨干 
或 其 它 普通 区 域 里 ， 路 由 器 依据 LS5A3 路 由 来 决定 选 路 。 如 果 FA 在 7/5 翻译 时 ， 执 行 FA 
抑制 (FA Suppress) ， 这 样 会 导致 产生 的 LSA5 中 FA=0， 访 问 外 部 网 络 依据 到 NSSA ABR 的 
距离 远近 决定 。 


3.6.5 ”场景 分 析 2: OSPF 外 部 路 由 所 引起 的 环 路 


场景 描述 : 
图 3-55 中 ，Areal 是 NSSA 区 域 ，R1 是 ASBR， 在 其 上 引入 外 部 路 由 100.1.1.0/24。 


Area0 = NSSA Areal 





图 3-55 ”外 部 路 由 在 区 域 间 所 致 的 路 由 环 路 问题 
R1 产生 的 LSA7 中 ,FA=10.1.1.1(10.1.1.1 是 R1 的 Loopback0 接口 IP), Cost-type=2， 


External-cost=]1 。 
边界 路 由 器 R2 的 RouterID=2.2.2.2，R3 的 RouterID=3.3.3.3。 
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需求 : 请 分 析 R2 访问 外 部 网 络 100.1.1.0/24 的 路 径 。 

分 析 过 程 : 

NSSA 区 域 中 , R2 和 R3 是 ABR, 同时 也 是 ASBR。 其中, R3 的 RouterID 高 , OSPF 
默认 使 用 R3 当 LSA 7/5 翻译 器 。 

R2 和 R3 都 收 到 Area 1 中 泛 洪 的 LSA7， 经 计算 后 ，100.1.1.0/24 路 由 出 现在 R2 
和 R3 的 路 由 表 里 ，R2 中 路 由 下 一 跳 指向 R1，R3 中 100.1.1.0/24 路 由 下 一 跳 指向 R2。 

边界 路 由 器 R3 由 于 RouterID 高 ， 执 行 LSA7/5 翻译 ， 把 出 现在 路 由 表 里 的 
100.1.1.0/24 路 由 向 Area0 使 用 LSA5 通告 。 

Area0 中 R3 产生 LSA5， 其 内 容 中 ， 通 告 路 由 器 是 3.3.3.3，FA=10.1.1.1; cost-type 
和 cost 值 都 和 LSA7 一 致 。 

边界 路 由 器 R2 从 Area0 收 到 LSA5 (内容 为 100.1.1.0/24, Cost-type=2, FA=10.1.1.1， 
External-cost=1); 同时 ， 在 Areal 中 收 到 LSA7 (内 容 为 100.1.1.0/24，Cost-type=2， 
FA=10.1.1.1, External-cost=]1 )。 

方案 1: 默认 场景 下 选 路 ， 根 据 FA 选 路 。 

默认 情况 下 ，R2 OSPF 路 由 表 (Display OSPF Routing) 中 ，FA 路 由 (10.1.1.1/32) 
下 一 跳 地 址 指向 R1。 

R2 收 到 LSA5 和 LSA7， 根 据 以 下 内 容 比较 ; 

LSAS (FA=10.1.1.1, cost-type=2, cost=1) advRtr=3.3.3.3 

LSA7 (FA=10.1.1.1, cost-type=2, cost=1) advRtr=1.1.1.1 

选 路 规则 根据 章节 3.7.1 可 知 ， 在 外 部 成 本 (cost=1) 一 致 的 情况 下 ， 根 据 内 部 成 本 
比较 ，LSA5S 的 内 部 成 本 是 R2 经 Area0 到 FA 〈10.1.1.1) 的 成 本 ，LSA7 的 内 部 成 本 是 
R2 经 Areal 到 FA (10.1.1.1) 的 成 本 。 从 图 中 可 知 ，LSA7 路 由 优 于 LSA5，R2 的 路 由 
表 里 100.1.1.0/24 是 根据 LSA7 生成 ， 下 一 跳 指向 R1。 

说 明 : 

即使 R2 选择 LSA5 的 路 由 ， 其 下 一 跳 仍 然 指向 R1， 因 为 它 使 用 FA 路 由 的 选 路 结果 。 

Area0 中 R4 收 到 LSA5, 根据 其 中 的 FA 地 址 决定 访问 路 径 ，R4 上 访问 10.1.1.1/32， 
OSPF 路 由 下 一 跳 地 址 是 R2。 所 以 R4 访问 100.1.1.0/24， 使 用 路 径 R4-R2-R1。 

方案 2: 在 R3 做 7/5 翻译 时 ， 强 制 翻 译 外 部 FA 地 址 ， 选 路 结果 出 现 环 路 。 

图 3-55 中 ，Area0 中 R4 访问 外 部 网 络 根据 FA 地 址 来 选 路 ， 如 果 场 景 要 求 Area0 中 
路 由 器 访问 外 部 网 络 只 能 经 过 R3， 实 现 这 样 的 需求 可 以 有 两 种 方法 ， 一 种 是 修改 IGP 
Cost, 使 R4 上 FA 路 由 的 下 一 跳 指 向 R3; 另外 一 种 方法 是 改 LSA5 中 FA 地 址 为 0.0.0.0。 
下 面 解释 一 下 修改 FA 地 址 在 此 种 场景 中 所 带 来 的 OSPF 环 路 问题 。 

在 R3 执行 LSA7/5 翻译 时 , 使 用 如 下 命令 : nssa suppress-forwarding-address 抑制 FA 
地 址 ， 该 命令 将 经 NSSA ABR 转换 后 生成 的 Type5LSA 中 的 FA 设置 为 0.0.0.0。 

R2 收 到 LSA5 和 LSA7， 内 容 如 下 : 

LSA5 (FA=0.0.0.0，cost-type=2，cost=1) advRtr=3.3.3.3 

LSA7 (FA=10.1.1.1，cost-type=2，cost=1) advRtr=1.1.1.1 

对 二 者 进行 比较 , R2 在 LSA5 和 LSA7 路 由 外 部 成 本 一 致 的 情况 下 , 根据 FA 选 路 ， 
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所 以 R2 到 LSA5S 的 通告 路 由 器 3.3.3.3 的 成 本 低 于 LSA7 FA 路 由 10.1.1.1 的 成 本 。 R2 最 
终 选择 LSA5 路 由 ， 使 用 Area0 的 转发 路 径 ，R2 路 由 表 中 100.1.1.0/24 路 由 的 下 一 跳 指 
向 R4， 而 R4 到 100.1.1.0/24 的 下 一 跳 选 择 ASBR R3，R3 上 100.1.1.0/24 路 由 的 下 一 跳 
”指向 R2。 
根据 上 面 的 分 析 结果 ， 数 据 的 转发 环 路 出 现 : R3-R2-R4-R3。 


总 缮 : 

OSPF 在 Area 内 是 无 环 的 ， 在 区 域 间 若是 LSA3 路 由 ， 则 可 以 靠 区 域 结构 及 水 平分 割 
规则 来 避免 环 路 , 但 如 果 是 LSA5/7 路 由 ， 则 要 人 靠 FA 路 由 来 避免 环 路 , 但 由 于 FA 地 址 会 
在 LSA7 传递 过 程 中 被 修改 ， 丢 失掉 原始 路 径 信 息 ， 因 此 可 能 导致 环 路 出 现 。 


3.7 选 路 规则 及 路 由 控制 


3.7.1 ”OSPF 选 路 规则 


1. OSPF 选 路 规则 标准 

OSPF 有 RFC1583 与 RFC2328 定义 的 两 种 路 由 选 路 规则 , 二 者 机 制 不 同 , 华为 设备 
默认 情况 下 使 用 RFC1583 选 路 规则 ， 如 果 OSPF 域 中 某 些 设备 使 用 RFC2328 选 路 规则 ， 
则 要 使 用 undo rfc1583 compatible 命令 配置 其 他 设备 , 使 其 用 RFC2328 定义 的 选 路 规则 ， 
以 保证 全 网 OSPF 设备 的 选 路 规则 一 致 。RFC1583 和 RFC2328 的 路 由 计算 规则 的 区 别 主 
要 在 于 计算 外 部 路 由 时 规则 不 一 致 ， 如 果 网 络 中 设备 使 用 不 同 的 计算 规则 可 能 会 导致 路 
由 环 路 ， 为 了 避免 路 由 环 路 的 发 生 ， 使 能 OSPF 时 ， 建 议 使 用 一 致 的 OSPF 域 的 路 由 选 
路 规则 。 

为 了 解决 这 两 种 规则 带 来 的 问题 ，RFC2328 中 提出 了 RFC1583 兼容 特性 ， 即 允许 
OSPF 路 由 器 使 用 OSPF RFC1583 兼容 规则 执行 路 由 计算 。 

2. RFC 1583 兼容 规则 

RFC1583 兼容 特性 主要 是 指 路 由 器 对 收 到 的 LSA5 如 何 计算 路 由 ， 如 何在 多 条 外 部 
路 由 间 选 择 最 佳 路 由 。 

选 路 规则 如 下 : 

(1) OSPF 区 域内 路 由 优 于 区 域 间 ; 

(2) OSPF 的 域 间 路 由 又 优 于 外 部 路 由 ; 

(3) OSPF 外 部 路 由 中 Metric-typel 的 路 由 优 于 Metric-type2 的 路 由 ; 

(4) 同 为 Typel 的 外 部 路 由 中 ， 优 选 内 部 成 本 和 外 部 成 本 之 和 后 成 本 最 小 的 路 由 ， 
如 果 路 由 的 成 本 一 样 ， 则 负载 分 担 ; 

(5) 同 为 Type2 的 外 部 路 由 中 ， 优 选 外 部 成 本 花 销 小 的 路 由 ; 如 果 外 部 成 本 一 致 ， 
则 优选 内 部 成 本 小 的 路 由 ， 和 否则 路 由 负载 分 担 。 

说 明 : 

(1) OSPF 的 路 由 计算 是 把 出 现在 SPF 树 上 的 叶子 路 由 添加 到 路 由 表 的 过 程 ， 区 域 
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间 的 LSA3 路 由 作为 挂 在 ABR 节点 上 的 叶子 路 由 ，ASBR 上 的 LSA5 或 LSA7 路 由 ， 如 果 
Root 节点 和 ASBR 在 同一 区 域内 ， 外 部 路 由 是 ASBR 上 的 叶子 节点 。 反 之 ， 如 果 Root 节 
点 和 ASBR 不 在 同一 个 区 域内 , 则 Root 在 计算 ASBR 的 外 部 路 由 时 , 把 外 部 路 由 作为 ABR 
上 的 叶子 路 由 而 执行 ， 这 个 计算 ABR 上 或 ASBR 上 叶子 路 由 的 过 程 ， 称 为 PRC。 叶 子路 
由 的 增 减 或 Cost 的 变化 ， 并 没有 触发 拓扑 的 重新 计算 ， 执 行 的 计算 过 程 不 会 消耗 太 多 
CPU 资源 。 
(2) OSPF 外 部 路 由 的 Cost 类 型 有 两 种 ， 一 种 是 type1， 一 种 是 type2， 这 两 种 类 型 的 不 
同 除 体现 在 计算 外 部 路 由 时 选 路 的 不 同 ， 还 在 于 路 由 表 中 外 部 路 由 Cost 值 的 不 同 ， 使 用 
typel 时 ， 路 由 表 中 使 用 内 部 与 外 部 Cost 之 和 ; 使 用 type2 时 ， 路 由 表 中 使 用 外 部 Cost。 


e 练习 1: 以 下 两 种 路 由 ， 哪 条 路 由 更 优 ? 

路 由 1: LSA3 类 型 路 由 10.1.1.0/24， 成 本 是 10。 

路 由 2: LSA2 所 通告 的 路 由 10.1.1.0/24， 计 算 后 的 成 本 为 1。 

计算 结果 及 分 析 过 程 : 

无 论 计 算 结果 是 多 少 ， 只 要 是 LSA1 或 LSA2 所 通告 的 路 由 ， 都 优 于 LSA3 所 通告 
的 路 由 。 

日 练习 2: 以 下 两 条 路 由 ， 哪 条 路 由 更 优 ? 

路 由 1: 外 部 路 由 LSA5， 外 部 成 本 是 20， 内 部 成 本 是 100，cost-type 1。 

路 由 2: 外 部 路 由 LSA7， 外 部 成 本 是 10， 内 部 成 本 是 110，cost-type 1。 

计算 结果 及 分 析 过 程 : 

两 条 路 由 Cost-type 都 是 typel1， 根 据 选 路 规则 ， 比 较 两 条 路 由 的 端 到 端 开销 之 和 ， 
内 外 开销 之 和 都 是 120， 两 条 路 由 负载 分 担 出 现在 路 由 表 中 。 

ee 练习 3: 以 下 两 条 路 由 ， 哪 条 路 由 更 优 ? 

路 由 1: 外 部 路 由 LSA5， 外 部 成 本 20， 内 部 成 本 是 100，Cost-type 2。 

路 由 2: 外 部 路 由 LSA7， 外 部 成 本 20， 内 部 成 本 是 120，Cost-type 2。 

计算 结果 及 分 析 过 程 : 

两 条 路 由 Cost-type 都 是 type2， 依 据 规 则 先 比较 外 部 成 本 ， 值 最 小 者 优先 。 两 条 路 
由 的 外 部 成 本 一 致 ， 都 为 20， 根 据 内 部 成 本 选择 最 优 路 由 。 路 由 1 因 其 内 部 成 本 小 而 最 
优 。 需 要 说 明 的 是 ， 虽 在 选 路 时 比较 内 部 成 本 ， 但 在 路 由 表 中 看 到 该 外 部 路 由 的 cost 为 
20。 这 是 因为 cost-type 为 2 的 外 部 路 由 ， 在 路 由 表 里 仅 考虑 外 部 成 本 。 

e 练习 4: 以 下 两 条 路 由 ， 哪 条 路 由 更 优 ? 

路 由 1: 外 部 路 由 LSA5， 外 部 成 本 1， 内 部 成 本 是 100，Cost-type 2。 

路 由 2: 外 部 路 由 LSA7， 外 部 成 本 20， 内 部 成 本 是 80，Cost-type 1。 

计算 结果 及 分 析 过 程 : 

两 条 路 由 都 是 外 部 路 由 ,但 路 由 1 属于 类 型 2, 路 由 2 属于 类 型 1。 外 部 路 由 Cost-type 
1 优 于 外 部 路 由 Cost-type2 的 路 由 。 


3.7.2 ”OSPF 矢量 特性 
OSPF 在 区 域内 不 具备 矢量 特性 ， 仅 在 边界 ABR 或 ASBR 上 具备 “矢量 ”特性 。 矢 
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量 特性 是 指 在 边界 路 由 器 上 ，LSA 的 产生 依赖 路 由 表 里 相 应 路 由 是 否 存 在 ， 如 果 路 由 不 
存在 ， 则 不 会 产生 相应 的 LSA。( 通 过 过 滤 ABR 或 ASBR 路 由 表 里 的 路 由 ， 就 可 以 控制 
向 其 他 区 域 通告 路 由 ) 
例 : ABR 上 的 矢量 特性 
图 3-56 中 ，R1 上 100.1.1.0/24 出 现在 Areal 区 域内 ， 该 路 由 同样 会 出 现在 R2 的 路 
由 表 中 ,如 果 在 ABR R2 上 使 用 filter-policy import 命令 过 滤 100.1.1.0/24 路 由 , 使 R2 路 
由 表 中 没有 100.1.1.0， 则 R2 不 为 Area0 产生 LSA3。 


Areal Area0 
100.1.1.0/24 
Ay a Pe sy 
和 ov Vv 


3-56 边界 路 由 器 上 的 矢量 行为 





同 理 ， 若 不 在 R2 上 过 滤 100.1.1.0/24 路 由 ， 使 LSA3 泛 洪 到 Area0，R3 和 R4 路 由 
表 里 都 有 100.1.1.0/24 的 路 由 。 这 时 ， 如 果 在 R4 上 同样 使 用 filter-policy import 命令 过 波 
100.1.1.0/24 路 由 ， 根 据 边 界 路 由 器 上 的 矢量 特性 ，Area2 中 同样 没有 通告 100.1.1.0/24 
路 由 的 LSA3。 

例 : ASBR 上 的 矢量 行为 

图 3-57 中 ，Areal 为 NSSA， 引 入 外 部 路 由 100.1.1.0/24， 边 界 路 由 器 R2 既是 ABR 
也 是 ASBR，R2 会 计算 出 外 部 路 由 100.1.1.0/24 并 添加 进 路 由 表 。R2 是 7/5 转换 器 ， 将 
出 现在 路 由 表 里 的 LSA7 路 由 , 转换 为 LSA5 并 向 Area0 通告 。 如 果 在 R2 上 ， 过 滤 掉 路 
由 表 里 的 100.1.1.0/24 路 由 ， 则 Area0 里 不 再 产生 相应 的 LSAS。 所 以 ， 图 3-57 中 外 部 路 
由 矢量 特性 仅 会 发 生 在 R1 和 R2 处 。 







NSSA Areal 
1S-IS | 
100.1.1.0/24 国王 LSA7 


图 3-57 ASBR 上 矢量 行为 


说 明 : 

如 果 在 R1 的 路 由 表 里 过 滤 掉 相应 的 外 部 路 由 ， 则 不 再 产生 相应 的 LSA5。 这 是 外 部 路 
由 引入 时 的 矢量 行为 。 

链 路 状态 路 由 协议 在 边界 上 都 存在 矢量 特性 ， 所 以 OSPF 的 环 路 问题 多 是 路 由 在 边界 
路 由 器 上 产生 的 。 


3.7.3 ”OSPF 路 由 控制 
OSPF 路 由 协议 在 企业 中 应 用 较 多 ， 作 为 使 用 最 广泛 的 链 路 状态 协议 ，OSPF 虽 没 有 
矢量 路 由 协议 控制 路 由 那么 灵活 , 但 华为 仍 提供 一 些 过 滤 或 控制 路 由 的 工具 ,参考 表 3-6。 
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表 3-6 OSPF 控制 路 由 的 千本 

a 1 me 
filter-policy import 在 任何 路 由 器 上 ， 对 进 路 由 表 的 路 由 做 过 滤 
filter-policy export 在 ASBR 上 ， 对 引入 的 路 由 做 过 滤 
filter export ABR 上 ， 对 离开 Area 的 LSA3 路 由 过 滤 
filter import ABR 上 ， 对 进入 Area 的 LSA3 路 由 过 滤 
filter-LSA-out 接口 下 ， 对 泛 洪 的 全 部 LSA 或 LSA3/5/7 做 过 滤 
ABR-Summary not-advertise ABR 上 对 聚合 路 由 范围 内 的 所 有 明细 路 由 过 滤 
ASBR-Summary not-advertise ASBR 上 对 聚合 路 由 范围 内 的 所 有 明细 路 由 过 滤 


1，filter-policy import 命令 可 在 任何 路 由 设备 上 使 用 ， 控 制 进入 路 由 表 的 路 由 。 

OSPF 路 由 设备 通过 filter-policy import 命令 对 本 地 计算 出 来 的 路 由 执行 过 滤 ， 只 有 
被 过 滤 策 略 允 许 的 路 由 才能 最 终 被 添加 到 路 由 表 中 ， 没 有 通过 过 滤 策 略 的 路 由 不 会 被 添 
加 进 路 由 表 中 ， 此 命令 不 影响 路 由 器 之 间 通 告 和 接收 LSA。 

该 命令 车 应 用 在 ABR 上 ,由 于 OSPF 在 区 域 边界 的 矢量 特性 , 路 由 表 里 过 滤 掉 的 路 
由 ，ABR 不 会 为 之 产生 LSA3。 如 果 该 命令 应 用 在 区 域内 部 的 某 台 路 由 器 上 ， 则 仅 该 路 
由 器 的 路 由 表 受 到 影响 ， 区 域 中 其 他 路 由 器 的 路 由 表 没 有 变化 。 

例 : 使 用 filter-policy import 执行 路 由 过 滤 

场景 描述 : 

图 3-58 中 ，R6 上 路 由 10.1.6.6/32、10.1.6.7/32、10.1.6.8/32 出 现在 Area3 中 ， 已 
发 布 到 OSPF。 路 由 器 接口 IP 地 址 :10.1.XY.Z/24，XYZ 是 路 由 器 编号 。 例 ，R1 和 R6 
间 网 段 是 10.1.16.0/24，R1 接口 IP 为 10.1.16.1/24，R6 接口 IP 为 10.1.16.6/24， 其 他 地 



















址 类 推 。 
Areal 
10.1.6.6/32 mal -3 el? 
3 10. 1 .67/32 Se 
10.1.6.6/32 有 
10.1.6.7/32 3 
10.1.6.8/32 
Area2 
图 3-58 ”OSPF 路 由 过 滤 
需求 : 
Area0 路 由 器 R2 和 R3 能 访问 10.1.6.6/32 及 10.1.6.7/32。Areal 中 R4 仅 能 访问 
10.1.6.6/32。 
实现 过 程 : 
在 R1 上 display ip routing-table 能 看 到 10.1.6.6/32，10.1.6.7/32 及 10.1.6.8/32 路 由 。 
<R1>display ip routing-table 
Route Flags: R-relay, D-download to fib 
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Routing Tables: Public 


Destinations : 23 Routes : 24 
Destination/Mask Proto Pre Cost Flags NextHop Interface 

10.1.4.4/32 OSPF 2 IPA GigabitEthernet 0/0/1 

10.1.5.5/32 OSPF 10 49 D. O01,122 GigabitEthernet 0/0/1 
OSPF 10 49 De 101.133 Seriall/0/0 

10.1.6.6/32 OSPF 10 48 D 10.1.16.6 Seriall/0/1 

10.1.6.7/32 OSPF 10 48 了 "10.1166 Seriall/0/1 

10.1.6.8/32 OSPF 10 48 D 10.1.16.6 Seriall/0/1 


控制 进入 Area0 的 OSPF 路 由 。 

# 在 ABR R1 上 过 滤 ABR 向 Areal 通告 的 LSA3 (10.1.6.8/32) 
## 通 过 在 ABR 上 过 滤 路 由 表 中 路 由 ， 这 是 OSPF 在 Area 边界 上 的 “矢量 特性 ” 
[R1]acl 2001 

[Rl-acl-basic-2001]rule deny source 10.1.6.8 0 
[Rl-acl-basic-2001]rule permit 

[R1-acl-basic-2001]quit 

[RI1JOSPF 1 

[R1-OSPF-1Jfilter-policy 2001 import 

# 

区 1]display ip routing-table 

Route Flags: R-relay, D-download to fib 


--------------------------------------------------------------------------------------~------------------------------- 


Routing Tables: Public 


Destinations : 22 Routes : 23 Vy 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
10.1.4.4/32 OSPF 1 DIODIES2 GigabitEthernet 0/0/1 
1021:5:3/32 OSPR 10 -49 pm {1 We Wea GigabitEthernet 0/0/1 
OSPF 10 49 De “Tl Seriall/0/0 
10.1.6.6/32 QOSPF 10 48 D 10.1.16.6 Seriall/0/1 
10.1:6:7/32' “QSPF “10" 48 Dh .156 Seriall/0/1 


#display ip routing-table 中 ， 看 不 到 10.1.6.8 路 由 ， 也 不 会 产生 相应 的 LSA3 
根据 场景 要 求 ，Areal 中 仅 能 看 到 10.1.6.6/32 路 由 。 
# 在 ABR R2 上 过 滤 由 Area0 向 Areal 通告 的 LSA3 
# 通 过 在 ABR 上 过 滤 路 由 表 中 路 由 ， 这 是 OSPF 在 Area 边界 上 的 “矢量 特性 ” 
[R2]aci 2001 
[R2-acl-basic-2001]rule deny source 10.1.6.70 
[R2-acl-basic-2001 1]rule permit 
[R2-acl-basic-2001]quit 
[R2]OSPF 1 
[R2-OSPF-1]filter-policy 2001 import 
[R2-OSPF-1]quit 
# 在 路 由 表 中 过 滤 
[R2]display ip routing-table 
Route Flags: R-relay, D-download to fib 
Routing Tables: Public 
Destinations : 20 Routes : 20 





Destination/Mask ~ Proto Pre Cost Flags NextHop Interface 
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10.1.4.4/32 OSPF 
10.1.5.5/32 OSPF 
10.1.6.6/32 OSPF 
10.1.12.0/24 Direct 
10.1.12.2/32 Direct 
10.1.12.255/32 Direct 


10.1.24.4 GigabitEthernet0/0/0 
10.1.25,5 Seriall/0/0 

10.1.12.1 GigabitEthernet0/0/1 
10.1.12.2 GigabitEthernet0/0/1 
127.0.0.1 GigabitEthernet0/0/1 
127.0.0.1 GigabitEthernet0/0/1 


# 使 用 display OSPF lsdb 去 验证 Areal 中 是 否 有 ABR 产生 的 LSA3， 看 到 10.1.6.6/32， 其 他 路 由 被 filter-policy 过 滤 掉 了 
#ABR 上 矢量 行为 ， 过 滤 路 由 表 ， 会 影响 LSA3 的 产生 


[R2]display ospf lsdb 


OSPF Process 1 with Router ID 2.2.2.2 


Type 
Router 
Router 
Router 
Network 
Sum-Net 
Sum-Net 
Sum-Net 
~ Sum-Net 
Sum-Net 
Sum-Net 
Sum-Net 
Sum-Net 
Sum-Net 
Sum-Net 
Sum-Net 


Type 


Router 

Router 

Network 
Sum-Net 
Sum-Net 
Sum-Net 
Sum-Net 
Sum-Net 
Sum-Net 
Sum-Net 


Link State Database 
Area: 0.0.0.0 
LinkState ID AdvRouter 
22 人 2.22 
.1.1 1 .1.1.1 
.3.33 3.3.3.3 
10.1.12.2 2.2.2.2 
10.1.35.0 3.3.3.3 
10.1.35.0 2 
10.1.25.0 9.3.3.3 
10.1:25.,0 2 .22.2 
10.1,24.0 2.2.2.2 
10.1.6.7 上 
10.1.6.6 到 
10:1.5.5 3.3.3.3 
10.1:5.5 2.2.2.2 
10.1.16.0 .111 
10.1.4.4 2 
Area: 0.0.0.24 
LinkState ID AdvRouter 
4.4.4.4 4.4.4.4 
22.27 2.2.22 
10.1.24.4 4.4.4.4 
10.1.35.0 2.2.2.2 
10.1.25.0 2.2.22 
10.1.13.0 2.2.2.2 
10.1.12.0 F022 
10.1.6.6 2.222. 
10.1.5.5 p Jip ay ay 
10.1.16.0 2.2.22 


#Area24 中 看 不 到 10.1.6.7/32 LSA3 

2. OSPF 下 对 引入 的 外 部 路 由 做 过 滤 ， 
filter-policy export。 

filter-policy export 命令 对 引入 的 外 部 路 由 进行 过 滤 控 制 。 

OSPF 通过 命令 import-route 引入 外 部 路 由 后 ， 再 通过 filter-policy export 命令 对 
引入 的 外 部 路 由 进行 过 滤 ， 只 将 满足 条 件 的 外 部 路 由 引入 OSPF， 此 命令 仅 在 ASBR 


上 配置 。 


示例 : filter-policy export 配置 。 


1015 
1008 

566 
1015 


558 


47 
558 
47 
47 
vy 
769 
558 
47 
976 
47 


1241 

1230 

1241 
47 
47 
47 
47 
47 
47 
47 


Age Len Sequence “Metric 

36 80000008 1 
60 80000009 1 
48 80000007 48 
32 80000005 0 
28 80000004 1 
28 80000001 49 
28 80000004 49 
28 80000001 48 
28 80000001 1 
28 80000001 48 
28 80000003 48 
28 80000004 1 
28 80000001 48 
28 80000004 48 
28 80000001 1 

Age Len Sequence Metric 

48 80000008 1 
36 80000007 1 
32 80000005 0 
28 80000001 .49 
28 80000001 48 
28 80000001 49 
28 80000001 1 
28 80000001 49 
28 80000001 48 
28 80000001 49 


如 限制 LSA5 或 LSA7 的 产生 ， 使 用 命令 
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<Huawei> system-view 

[Huaweilacl 2001 

[Huawei -acl-basic-2001]rule deny source 100.1.1.30 

[Huawei -acl-basic-2001]rule permit 

[Huawei -acl-basic-2001]quit 

[HuaweilOSPF 1 

[Huawei-OSPF-1] import-route rip 

[Huawei-OSPF-1] filter-policy 2001 export 

配置 OSPF 对 引入 的 RIP 协议 的 路 由 在 发 布 时 进行 过 滤 ， 执 行 过 滤 前 ， 一 定 要 先 使 
用 import-route rip 命令 引入 RIP 路 由 。 在 OSPF 下 , filter-policy export 命令 仅 用 在 ASBR 
下 对 引入 到 OSPF 的 外 部 路 由 做 过 滤 。 上 述 命 令 还 可 以 修改 为 : 

<Huawei> system-view 

[Huawei] OSPF 1 

[Huawei-OSPF-1] import-route rip 

[Huawei-OSPF-1] filter-policy 2001 export rip 


export 后 面 接 协议 进程 名 字 ， 表 示 filter-policy 是 对 从 RIP 引入 的 路 由 执行 过 滤 。 如 
果 未 加 协议 进程 名 字 ， 则 代表 对 ASBR 上 任何 协议 进程 引入 的 路 由 都 执行 过 滤 。 

上 述 两 种 过 滤 命 令 的 效果 等 价 于 下 面 命令 的 过 滤 效 果 。 

[Huaweijroute-policy abc permit node 10 

[Huawei-route-policy] if-match acl 2000 

[Huawei-route-policy]quit 

[Huawei] OSPF 1 

[Huawei-OSPF-1] import-route rip route-policy abc 


import-route rip route-policy abc 命令 是 在 引入 外 部 路 由 的 同时 执行 过 滤 功 能 。 而 
filter-policy export 命令 是 在 引入 外 部 路 由 后 ， 再 执行 过 滤 。 两 种 命令 有 同样 的 过 滤 结 果 ， 
但 过 滤 逻 辑 发 生 时 间 不 同 。 亦 可 同时 使 用 两 种 过 滤 命 令 。 

[Huawei] OSPF 1 

[Huawei-OSPF-1] import-route rip route-policy abc 

[Huawei-OSPF-1] filter-policy 2001 export 

根据 上 面 的 描述 ，filter-policy export 仅 能 用 在 ASBR 上 ， 用 来 过 滤 从 其 他 协议 进程 
进入 OSPF 的 路 由 ， 此 处 依然 是 矢量 行为 ， 只 有 被 引入 的 路 由 表 里 的 路 由 才能 被 
filter-policy export 过 滤 。 

例 : 使 用 filter-policy export 执行 路 由 过 滤 

图 3-58 中 ，R4 上 引入 外 部 直 连 路 由 ， 即 100.1.1.1/32、100.1.1.2/32、100.1.1.3/32 路 
由 。 要 求 使 用 filter-policy 过 滤 引 入 路 由 ,使 Areal 中 仅 能 看 到 100.1.1.1/32 及 100.1.1.2/32 
的 路 由 D 

实现 过 程 : 

# 

[R4]acl 2001 

[R4-acl-basic-2001]rule deny source 100.1.1.30 

[R4-acl-basic-2001]rule permit 

[R4-acl-basic-2001]quit 

# 

[R4]OSPF 1 

[R4-OSPF-1]import-route direct 

[R4-OSPF-1]filter-policy 2001 export direct 
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[R4-OSPF-1]quit 
# 

# 

[R4]display ip routing-table 

Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 20 Routes : 20 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
100.1.1.1/32 Direct 0 0 BD 200! LoopBack100 
100.1.1.2/32 Direct 0 0 D 127.0.0,1 LoopBack101 
100.1.1.3/32 Direct 0 0 DD .127001 LoopBack102 


共 
#display ospf lsdb 观察 引入 的 外 部 路 由 ， 可 看 到 两 条 外 部 路 由 
[R4]display ospf lsdb 

OSPF Process 1 with Router ID 4.4.4.4 


Link State Database 

AS External Database 
Type LinkState ID AdvRouter Age Len Sequence Metric 
External 10.1.24.0 4.4.4.4 49 36 80000001 1 
External 10.1.4.0 4.4.4.4 59 36 80000001 1 
External 100.1.1.1 4.4.4.4 59 36 80000001 ,| 
External 100.1.1.2 4.4.4.4 5 56 80000001 和 


# 其 他 不 相关 信息 省 略 

# 也 可 以 使 用 以 下 配置 过 程 来 实现 上 述 场景 需求 

# 

[R4]acl 2000 

[R4-acl-basic-2000]rule permit source 100.1.1.1 0 

[R4-acl-basic-2000]rule permit source 100.1.1.20 

[R4-acl-basic-2000]rule permit source 100.1.1.3 0 

[R4-acl-basic-2000]quit 

# 

[R4]acl 2001 

[R4-acl-basic-2001]rule deny source 100.1.1.3 0 

[R4-acl-basic-2001]rule permit 

[R4-acl-basic-2001]quit 

并 

[Huaweijroute-policy abc permit node 10 

[Huawei-route-policy] if-match acl 2000 

[Huawei-route-policy]quit 

国 

[R4]OSPF 1 ， 

[R4-OSPF-1]import-route direct route-policy abc 

[R4-OSPF-1]filter-policy 2001 export direct 

[R4-OSPF-1]quit 

大 

# 先 使 用 route-policy 过 滤 路 由 ， 再 使 用 filter-policy 过 滤 路 由 ; 

#route-policy 过 滤 路 由 无 法 区 分 协议 ，filter-policy 可 基于 协议 过 滤 控 制 路 由 

3， 在 ABR 上 使 用 filter ip-prefix import/export 过 滤 LSA3。filter export 命令 用 来 对 
从 本 区 域 通告 出 去 的 Type3 LSA 路 由 进行 过 滤 ; filter import 命令 对 进入 本 区 域 的 Type3 
LSA 路 由 执行 过 滤 。 

默认 情况 下 ，ABR 不 对 区 域 间 路 由 做 任何 过 滤 ， 所 有 出 现在 ABR 路 由 表 里 面 的 


Area3 路 由 都 将 被 R1 通过 LSA3 通告 到 Area0， 但 可 以 使 用 filter import/export 对 其 进行 
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图 3-59 中 ， 要 求 使 用 filter 实现 过 滤 ， 使 Area0 路 由 器 R2 和 R3 能 访问 10.1.6.6/32 
及 10.1.6.7/32，Areal 中 R4 仅 能 访问 10.1.6.6/32。 











Areal 





10.1.4.4/32 
10.1.4.5/32 R4 


10.1.6.6/32 
10.1.6.7/32 
10.1.6.8/32 





Area2 


图 3-59 ”区 域 间 过 滤 路 由 
在 Rl 做 法 如 下 : 


[R1]Jip ip-prefix deny-8 deny 10.1.6.8 32 
[R1]ip ip-prefix deny-8 permit 0.0.0.0 0 less-equal 32 
[R1]ip ip-prefix deny-7 deny 10.1.6.7 32 
[R1]ip ip-prefix deny-7 permit 0.0.0.0 0 less-equal 32 0 
# > 
[RI1]OSPF 1 
[R1-OSPF-1]Area 0 
[R1-OSPF-1-Area-0.0.0.0]filter ip-prefix deny-8 import 
” ## 过 滤 进 入 到 Area0 的 LSA3 路 由 
# 
[R2]OSPF 1 
[R2-OSPF-1]Area 0 
[R2-OSPF-1-Area-0.0.0.0]filter ip-prefix deny-7 export 
# 过 滤 离 开 Area0， 进 入 Areal 的 LSA3 路 由 
练习 : filter import 过 滤 和 filter export 过 滤 的 区 别 
场景 需 : 
图 3-59 中 ， 使 ABR R2 仅 向 其 他 区 域 通告 10.1.4.4/32 和 10.1.4.5/32 路 由 。 


[R2]ip ip-prefix deny-6 deny 10.1.4.6 32 
[R2]ip ip-prefix deny-6 permit 0.0.0.0 0 less-equal 32 
[R2]OSPF 1 
[R2-OSPF-1]Area 0 
[R2-OSPF-1-Area-0.0.0.0]filter ip-prefix deny-6 import 
# filter import 是 过 滤 进 入 到 Area0 的 LSA3 路 由 ， 并 没有 过 滤 进 入 Area2 的 路 由 
[R2]display ospflsdb 
OSPF Process 1 with Router ID 2.2.2.2 
Link State Database 
Area: 0.0.0.0 
Type LinkState ID AdvRouter Age Len Sequence Metric 


Sum-Net 10.1.4.5 WA) 137 1 28 80000001 1 
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Sum-Net 10.1.4.4 22209 162 28 80000003 1 
Area: 0.0.0.2 

Type LinkState ID AdvRouter Age Len Sequence Metric 
Sum-Net 10.1.4.5 2.2,2.2 158 28 80000001 1 
Sum-Net 10.1.4.5 3.3.:323 160 28 80000001 50 
Sum-Net 10.1.4.4 pp Wp, 1637 28 80000003 1 
Sum-Net 10.1.4.4 3 165 28 80000001 50 
Sum-Net 10.1.4.6 2.2.2,2 132" 28 80000001 1 


#Area0 内 10.1.4.6 被 过 滤 掉 ， 而 进入 Area2 的 路 由 没有 执行 过 滤 
# 修 改 上 述 命令 ， 改 为 由 Areal 向 其 他 区 域 通告 时 过 滤 路 由 
[R2]OSPF 1 

[R2-OSPF-1]Area 1 

[R2-OSPF-=1-Area-0.0.0.0|filter ip-prefix deny-6 export 
[R2-OSPF-1-Area-0.0.0.0]quit 

# 过 滤 离 开 Areal 的 LSA3 路 由 


[R2]display ospf lsdb 
OSPF Process 1 with Router ID 2.2.2.2 
Link State Database 
Area: 0.0.0.0 
Type LinkState ID AdvRouter Age Len Seguence Metric 
Sum-Net 10.1.4.5 ph Aly 465 28 80000001 1 
Sum-Net 10.1.4.4 加 2,22 470 28 80000003 1 
Area: 0.0.0.2 
Type LinkState ID AdvRouter Age Len Sequence Metric 
Sum-Net 10.1.4.5 oe Me 465 28 80000001 1 
Sum-Net 10.1.4.5 3.3.33 467 28 80000001 50 
Sum-Net 10.1.4.4 2 二 2 470 28 80000003 1 
Sum-Net 10.1.4.4 30.3 汉 472 28 80000001 50 


pe Areal 时 过 滤 ， 过 滤 的 结果 是 Area0 和 Area2 都 没有 10.1.4.6/32 

filter import 和 export 的 区 别 在 于 ，import 在 路 由 进入 某 区 域 时 执行 过 滤 ， 不 影响 其 
他 区 域 路 由 的 学 习 。export 在 路 由 离开 某 区 域 时 执行 路 由 过 滤 ， 导 致 所 有 其 他 区 域 都 学 
不 到 该 路 由 。 二 者 都 仅 对 LSA3 做 过 滤 。 

4. OSPF filter-LSA-out 命令 可 以 对 LSA 做 过 滤 ， 可 以 应 用 在 任何 接口 下 ， 它 对 泛 
洪 的 LSA 起 抑制 作用 ， 命 令 OSPF filter-LSA-out { all | { summarylase | nssa } 。 

对 OSPF 接口 出 方向 的 LSA 进行 过 滤 , 可 以 过 滤 向 邻居 发 送 的 无 用 LSA， 从 而 减少 
邻居 LSDB 的 大 小 或 避免 向 指定 邻居 做 不 必要 的 泛 洪 ， 优 化 网 络 性 能 。 


说 明 : 
在 某 接口 配置 OSPF filter-LSA-out 命令 后 ， 该 接口 的 OSPF 邻居 关系 会 自动 重建 。 


例 : 路 由 器 间 过 滤 LSA。 

图 3-60 中 ，R6 是 Stub 路 由 器 ， 仅 有 一 条 上 连 链 路 ， 区 域内 OSPF 路 由 器 拥有 一 样 
的 LSDB， 为 降低 R6 的 计算 负荷 及 泛 洪 开销 ，R4 在 G0/0/0 接口 开启 filter-LSA-out all 
命令 ， 这 条 命令 过 滤 全 部 LSA，R4 不 向 R6 通告 任何 LSA， 减少 R6 的 LSDB 的 大 小 。 
R6 要 访问 所 有 其 他 网 段 ， 需 要 手工 在 路 由 表 里 添 加 一 条 指向 R4 的 默认 路 由 。 

图 3-60 中 ，R2 会 泛 洪 Core 中 的 LSA，LSA 分 别 经 R1、R3 及 R5 继续 泛 洪 。 同 样 
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的 LSA，R4 会 收 到 多 份 ，R4 会 选择 其 中 一 份 ， 并 计算 路 由 。 图 中 ， 根 据 链 路 成 本 ，R4 
路 由 表 里 到 100.1.1.0/24 路 由 的 下 一 跳 是 R5。 


100.1.1.0/24 Bat 
Core 


Stub router 





图 3-60 过 滤 LSA 


现在 为 优化 网 络 性 能 ， 降 低 过 量 泛 洪 所 致 的 开销 ， 在 R5 的 出 口 过 滤 LSA 通告 ， 尽 
管 R5 不 通告 LSA 给 下 游 路 由 器 R4, 但 R1 和 R3 仍 能 继续 泛 洪 ， 不 影响 R4 LSDB 的 完 
整 性 。R4 最 终 计算 路 由 是 根据 LSDB 执行 计算 的 ， 所 以 R4 访问 100.1.1.0/24， 路 由 下 一 


跳 仍 使 用 R5，R5 抑制 泛 洪 ， 只 是 改变 了 泛 洪 的 路 径 ， 但 并 没有 影响 路 由 计算 。 
# 设置 接口 G0/0/0 对 出 方向 的 所 有 LSA 进行 过 滤 〈Grace LSA 例外 ) 
<Huawei> system-view 
[Huawei] interface gigabitethernet 0/0/0 
[Huawei-GigabitEthernet0/0/0] OSPF filter-LSA-out all 
# 


OSPF filter-LSA-out { all | { summary|ase | nssa } 命 令 同 样 可 以 对 泛 洪 的 LSA3/LSA5 
或 LSA7 执行 过 滤 。 如 果 是 应 用 到 ABR 或 ASBR 的 外 出 链 路 上 ， 可 起 到 filter-policy 过 
滤 路 由 的 效果 。 

5. ABR-summary not-adverise 和 ASBR-summary not-advertise 这 一 对 命令 分 别 可 用 
于 过 滤 LSA3 或 LSA5/7 的 路 由 。 

ABR-summary not-advertise 命令 (如 图 3-61 所 示 )， 仅 对 处 在 聚合 路 由 范围 内 的 明 
细 路 由 做 过 滤 。 该 命令 利用 聚合 自动 抑制 明细 成 员 路 由 的 能 力 ， 再 添加 not-advertise 关 
键 词 后 ， 使 聚合 路 由 不 再 产生 。 


Areal 


10.1.1.0/24 
10.1.2.0/24 
10.1.3.0/24 
10.1.4.0/24 





图 3-61 ABR-Summary not-advertise 命令 
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例 : 使 用 ABR-summary not-advertise 命令 执行 路 由 过 滤 


景 需求 : 

使 用 ABR-summary 命令 在 图 3-61 中 过 滤 10.1.1.0/24、10.1.2.0/24 和 10.1.3.0/24 路 由 。 
[R1]OSPF 1 
[R1-OSPF-1]Area 1 
[R1-OSPF-1-Area-0.0.0.1]ABR-summary 10.1.0.0 255.255.252.0 ? 

advertise Advertise this summary (default) 

Cost Set cost 

not-advertise Donot advertise this summary 

<cr> Please press ENTER to execute command 


[R1-OSPF-1-Area-0.0.0.1]ABR-summary 10.1.0.0 255.255.0.0 not-advertise 
# 在 RI 上 观察 Area 0 LSDB 


[Rl]display OSPF lsdb 


OSPF Process 1 with Router ID 1,1.1.1 


Link State Database 
Area: 0.0.0.0 
Type LinkState ID AdvRouter Age Len Sequence Metric 
Sum-Net 10.1.4.0 bll 467 28 80000001 1 
# 在 Area0 没有 看 到 其 他 路 由 ， 都 被 ABR-summary not-advertise 过 滤 掉 了 
需要 说 明 的 是 : 


。 ABR-summary 对 出 现在 此 范围 内 的 路 由 做 过 滤 。 例 如 , 如 果 要 过 滤 10.1.4.0/24， 
使 用 ABR-summary 10.1.4.0 255.255.255.0 not-advertise 不 起 作用 ; 

。 ABR-summary not-advertise 过 滤 命 令 不 如 其 他 过 滤 命 令 强 大 , 如 filter export/import 
命令 ，ABR-summary not-advertise 只 能 对 可 聚合 的 路 由 做 过 滤 ， 如 果 要 实现 仅 过 波 
10.1.1.0/24 和 10.1.3.0/24， 并 不 过 滤 10.1.2.0/24，ABR-summary 命令 则 无 法 实现 ; 

。 另外，ABR-summary 命令 只 能 在 图 中 的 R1 处 〈LSA3 路 由 起 源 的 位 置 ) 执行 
过 滤 ， 无 法 在 R5 处 对 10.1.4.0/24 做 过 滤 。 

ASBR-summary not-advertise 命令 

ASBR-summary not-advertise( 如 图 3-62 所 示 ) 命令 应 用 在 ASBR 上 ， 效果 同 ABR- 

summary not-advertise 命令 ， 仅 对 处 在 聚合 范围 内 的 路 由 做 过 滤 。 


20.1.1.0/24 
20.1.2.0/24 


20.1.3.0/24 
20.1.4.0/24 





图 3-62 ASBR-summary not-advertise 


这 条 命令 利用 聚合 路 由 自动 抑制 成 员 路 由 的 能 力 ， 添 加 notradvertise 关键 词 ， 使 聚 
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合 路 由 不 再 产生 。 
例 : 使 用 ASBR-summary not-advertise 执行 路 由 过 滤 
场景 需求 : 图 3-62 中 ， 对 20.1.1.0/24、20.1.2.0/24 和 20.1.3.0/24 路 由 做 过 滤 。 


[R6]OSPF 1 
[R6-OSPF-1]ASBR-summary 20.1.0.0 255.255.252.0? 
advertise Advertise this summary (default) 
cost Set cost 
not-advertise Do not advertise this summary 
<cr> Please press ENTER to execute command 


[R6-OSPF-1]ASBR-summary 20.1.0.0 255.255.0.0 not-advertise 
# 在 R6 上 观察 Area 0 LSDB 
[R6]display ospf lsdb 


OSPF Process 1 with Router ID 6.6.6.6 


Link State Database 
AS External Database 
Type LinkState ID AdvRouter Age Len Sequence Metric 
External 20.1.4.0 4.4.4.4 1293 36 80000005 1 
# 在 Area3 没有 看 到 其 他 外 部 路 由 ， 都 被 ASBR-summary not-advertise 过 滤 掉 了 
说 明 : 


该 命令 只 能 对 ASBR 产生 的 LSA5 或 LSA7 的 外 部 路 由 做 过 滤 ， 执 行 过 滤 可 以 在 任何 一 
个 ASBR， 甚 至 是 NSSA 区 域 边界 上 的 7/5 转换 器 ， 其 向 骨干 区 域 通告 路 由 时 ， 同 样 可 以 使 
用 该 命令 做 明细 路 由 的 过 滤 。 


3.7.4 路 由 聚合 


3.7.4.1 聚合 

路 由 聚合 是 指 将 多 条 具有 相同 IP 前 级 的 路 由 聚合 成 一 条 路 由 。 如 果 被 聚合 的 全 地 
址 范围 内 的 某 条 链 路 频繁 Up 和 Down， 该 变化 并 不 会 通告 到 被 聚合 的 IP 地 址 范围 外 的 
设备 。 因 此 ， 可 以 避免 网 络 中 的 路 由 振荡 ， 在 一 定 程度 上 提高 了 网 络 的 稳定 性 。 

OSPF 聚合 仅 能 发 生 在 ABR 及 ASBR 上 ， 即 发 生 在 区 域 边界 或 路 由 域 的 边界 上 。 

OSPF 路 由 聚合 的 特性 : 

e 抑制 明细 路 由 ， 并 向 外 通告 聚合 路 由 ; 

。 减少 路 由 表 的 大 小 ， 降 低 更 新 的 大 小 ， 系 统 消耗 降低 ; 

e。 ”至少 有 一 条 明细 路 由 存在 , 路 由 器 才能 通告 聚合 路 由 , 否则 不 会 产生 聚合 路 由 ; 

e 出 现在 聚合 路 由 范围 内 的 明细 路 由 的 变化 ， 如 路 由 抖动 ， 不 影响 已 通告 的 聚合 


路 由 ; 
。 聚合 行为 只 能 发 生 在 矢量 行为 的 边界 路 由 器 上 ， 如 ABR、ASBR。 
OSPF 路 由 聚合 的 缺点 : 


路 由 聚合 设计 不 当 ， 易 出 现 环 路 。 
3.7.4.2 区域 间 路 由 聚合 
ABR-summary 命令 用 来 设置 ABR 对 区 域内 明细 路 由 进行 聚合 。 ABR 向 其 他 区 域 发 
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送 路 由 信息 时 ， 会 通告 明细 路 由 。 当 区 域 中 存在 连续 的 明细 路 由 网 络 (具有 相同 前 缀 的 
路 由 信息 ) 时 ， 可 以 通过 ABR-summary 命令 将 这 些 网 络 聚合 成 一 个 大 网 络 ，ABR 只 向 
其 他 区 域 发 送 一 条 聚合 后 的 大 网 络 ， 不 再 通告 明细 网 络 路 由 ， 从 而 减 小 路 由 表 的 规模 ， 
提高 路 由 器 的 性 能 。 

例 : ABR 上 做 聚合 

场景 需求 : 

图 3-63 将 OSPF 1 的 Areal 中 网 段 10.1.1.0/24、10.1.2.0/24、10.1.3.0/24 的 路 由 聚合 
成 一 条 聚合 路 由 10.1.0.0/22 向 其 他 区 域 发 布 。 


10.1.1.0/24 
10.1.2.0/24 
10.1.3.0/24 
10.1.4.0/24 





图 3-63 ABR-summary 


<R1> system-view 
[R1] OSPF 1 
[RI1-OSPF-1] area 1 一 
[R1-OSPF-1-Area-0.0.0.1] ABR-summary 10.1.0.0 255.255.252.0 
来 作 聚 合 前 ，R1 向 Area0 及 Area2 通告 10.1.1.0/24-10.1.4.0/24 四 条 路 由 ， 产 生 四 份 LSA3 路 由 
# 执 行 完 聚 合 后 ，R1 向 Area0 及 ,Area2 通告 10.1.4.0/24 及 聚合 路 由 10.1.0.0/22， 产 生 两 份 LSA3 路 由 


(1) OSPF 对 区 域 Areal 通告 的 路 由 做 聚合 ， 仅 发 生 在 ABR Rl1 上 。ABR-summary 
命令 只 能 在 路 由 起 源 的 Area 边界 上 做 聚合 。 图 中 路 由 起 源 于 Areal,， 聚 合 ABR-summary 
命令 只 能 在 R1 上 发 生 ， 其 他 位 置 都 无 法 对 10.1.X.0/24 路 由 做 聚合 。 例 如 ，R5 无 法 对 
10.1.X.0/24 路 由 做 聚合 。 

(2) 华为 在 执行 聚合 时 ， 并 不 会 自动 在 路 由 表 中 添加 一 条 避免 环 路 的 指向 Null0 接 
口 的 路 由 。 

(3) 设置 聚合 路 由 的 开销 ， 当 此 cost 参数 缺 省 时 ， 则 取 所 有 被 聚合 的 路 由 中 最 大 的 
那个 开销 值 作 为 聚合 路 由 的 开销 。 

3.7.4.3 ”外 部 路 由 聚合 

ASBR-summary 命令 用 来 设置 自治 系统 边界 路 由 器 (ASBR) 对 OSPF 引入 的 路 由 进 
行路 由 聚合 。 如 图 3-64 所 示 。 

当 引 入 的 路 由 具有 相同 前 绥 的 路 由 信息 时 ， 可 以 通过 ASBR-summary 命令 将 这 些 引 
入 的 路 由 聚合 并 发 布 成 一 条 聚合 路 由 。 通 过 配置 路 由 聚合 ， 可 以 减少 路 由 信息 ， 减 小 路 
由 表 的 规模 ， 提 高 设备 的 性 能 。 

对 引入 的 路 由 进行 路 由 聚合 后 ， 有 以 下 几 种 情况 。 

e ”如 果 本 地 设备 是 ASBR 且 处 于 普通 区 域 中 ， 本 地 设备 将 对 引入 的 聚合 地 址 范围 
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20.1.1.0/24 
20.1.2.0/24 
20.1.3.0/24 
20.1.4.0/24 


图 3-64 R6 对 引入 的 外 部 路 由 执行 聚合 


e。 ”如 果 本 地 设备 是 ASBR 且 处 于 NSSA 区 域 中 ,本 地 设备 对 引入 的 聚合 地 址 范围 
内 的 所 有 Type-5 LSA 和 Type-7 LSA 进行 路 由 聚合 。 

e。 如果 本 地 设备 既是 ASBR 又 是 ABR 且 处 于 NSSA 区 域 中 ， 本 地 设备 对 引入 的 
聚合 地 址 范围 内 的 所 有 Type-5 LSA 和 Type-7 LSA 进行 路 由 聚合 外 ， 还 将 对 由 
Type-7 LSA 转化 成 的 Type-5 LSA 也 进行 路 由 聚合 。 

例如 ， 对 引入 的 外 部 路 由 做 聚合 。 

<Huawei> system-view 

[Huawei] OSPF 1 

[Huawei-OSPF-1] ASBR-summary 20.1.0.0 255.255.0.0 

说 明 ; 

(1) 只 要 是 ASBR， 无 论 是 NSSA 还 是 普通 区 域 ， 只 要 引入 外 部 路 由 成 功 ， 都 可 以 使 用 
上 述 命令 对 其 聚合 ， 在 聚合 路 由 范围 内 的 路 由 都 将 被 抑制 。 同样 适用 于 执行 7/5 翻译 的 
NSSA ABR (ABR=ASBR) 。 

(2) 设置 聚合 路 由 的 开销 (cost) 。 当 此 cost 参数 缺 省 时 ， 对 于 Type1 外 部 路 由 ， 取 所 有 
被 聚合 路 由 中 的 最 大 开销 值 作为 聚合 路 由 的 开销 对 于 Type2 外 部 路 由 ， 则 取 所 有 被 聚合 
路 由 中 的 最 大 开销 值 再 加 上 1 作为 聚合 路 由 的 开销 。 

例 : ASBR 执行 路 由 聚合 

场景 需求 : 

图 3-65 中 , R6 是 ASBR， 引 入 外 部 路 由 20.1.1.0/24、20.1.2.0/24、20.1.3.0/24、20.1.4.0/24。 


20.1.1.0/24 
20.1.2.0/24 


20.1.3.0/24 
20.1.4.0/24 





图 3-65 R5 对 7/5 转换 后 的 LSA5 执行 聚合 
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R5 是 NSSA 区 域 ABR/ASBR， 执 行 7/5 转换 ,可 在 R5 上 对 进入 Area0 的 路 由 做 


[R5] OSPF 1 
[R5-OSPF-1] ASBR-summary 20.1.0.0 255.255.248.0 ， 
3.7.4.4 场景 分 析 : 聚合 时 没有 产生 Null0 接口 所 致 环 路 


ott “村 下 
| os | 0Sp I 
Lasbrsummary 1000025525500 | sorsummany 10.10025525500 | 





10.1.1.0/24 
10.1.2.0/24 
eas 1 0.1.3.0/24 





172.16.0.0/24 
172.16.1.0/24 
172.16.2.0/24 
172.16.3.0/24 








3-66 ”聚合 路 由 易 出 现 环 路 


例 : 如 何 避 免 路 由 环 路 

R3 和 R4 分 别 引 入 外 部 RIP 路 由 10.1.1.0/24 一 10.1.3.0/24 到 OSPF, 在 R38 和 R4 上 
分 别 对 其 做 聚合 ， 聚 合 路 由 ASBR-summary 10.1.0.0/16， 做 完 聚 合 后 ， 会 有 什么 问题 ? 

答 : R3 和 R4 互相 学 到 对 方 的 聚合 路 由 ，R3 上 看 到 R4 的 聚合 路 由 ，R4 上 看 到 R3 
的 聚合 路 由 , 路 由 均 指向 R2, 而 R2 看 到 源 自 R3 和 了 4 的 聚合 路 由 10.1.0.0/16 是 负载 分 
担 的 ，R2 和 R37R4 的 路 由 互 指 而 形成 环 路 。 访 问 10.1.4.1 这 个 未 知 目的 地 时 ， 报 文 转 发 
形成 环 路 。 

华为 OSPF 解决 聚合 路 由 环 路 的 问题 有 两 种 办 法 。 

(1) 使 用 filter-policy import 过 滤 对 方 路 由 器 通告 的 聚合 路 由 。 

图 中 ，R3 和 R4 上 使 用 filter-policy import 命令 手工 过 滤 从 彼此 收 到 的 聚合 路 由 。 

(2) 在 R3 和 R4 的 路 由 表 中 手工 插入 preference 值 低 于 10 的 指向 NULL 0 接口 
的 路 由 。 

ip route-static 10.1.0.0 16 NULL 0 preference 9 

此 种 方法 实现 简单 ， 因 为 这 条 NULL0 路 由 的 preference 值 低 ,， 所 以 R3 不 再 接收 R4 
通告 的 10.1.0.0/16 的 聚合 路 由 。 同 理 ，R4 也 不 再 接收 R3 通告 的 聚合 路 由 ， 如 果 R2 访 
问 10.1.4.1， 数 据 报 文 到 R3 后 ， 匹 配 NULL0 接口 的 路 由 而 被 丢弃 ， 实 现 了 环 路 避免 。 
此 种 方法 是 推荐 的 方法 。 

思考 题 : 

图 3-66 中 ， 若 R3 上 执行 聚合 ， 掩 码 为 16 位 ， 生 成 的 聚合 路 由 为 10.1.0.0/16。R4 
上 执行 聚合 ， 掩 码 为 20 位 ， 聚 合 路 由 为 10.1.0.0/20。 此 种 场景 下 ， 能 否 出 现 环 路 及 可 能 
的 解决 办 法 ? 
3.7.5 ”默认 路 由 

默认 路 由 是 指 目的 地 址 和 掩 码 都 是 0 的 路 由 。 当 设备 无 精确 匹配 的 路 由 时 ， 就 可 以 
通过 默认 路 由 进行 报 文 转发 。 一 般 多 用 于 网 络 边界 路 由 器 访问 互联 网 所 需要 的 一 条 路 由 。 
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同时 ， 企 业内 ， 在 精确 的 内 部 路 由 基础 上 ， 边 界 路 由 器 通告 一 条 默认 路 由 ， 使 所 有 访问 
未 知 目的 地 的 数据 报 文 都 送 至 边界 路 由 器 。 但 如 果 流 量 流 至 边界 路 由 器 后 ， 又 从 边界 路 
由 器 流 回 内 部 路 由 器 ， 则 环 路 出 现 。 

所 以 不 允许 出 现 内 部 路 由 器 有 默认 路 由 指向 边界 路 由 器 ， 而 边界 路 由 器 也 有 条 默认 
路 由 指向 内 部 路 由 器 ， 即 默认 路 由 互 指 ， 所 以 OSPF 中 不 允许 产生 默认 路 由 的 路 由 器 也 
接收 其 他 路 由 器 产生 的 默认 路 由 。 

OSPF 中 默认 路 由 的 种 类 有 三 种 : LSA3 的 默认 路 由 、LSA5 及 LSA7 的 默认 路 由 。 

(1) 由 区 域 边 界 路 由 器 (ABR) 产生 LSA3 默认 路 由 ， 用 来 指导 区 域内 设备 进行 区 
域 之 间 报 文 的 转发 。 这 是 自动 产生 的 默认 路 由 ， 由 特定 的 区 域 设 置 而 触发 产生 。 
Stub/totally Stub 及 Totally NSSA 类 型 区 域内 都 会 存在 由 ABR 产生 的 LSA3 的 默认 路 由 ， 
默认 Cost=1。 

# 将 区 域 1 设置 成 Stub 区域， 使 发 送 到 该 Stub 区 域 的 Type 3 默认 路 由 的 开销 为 20 

<Huawei> system-view 

[Huawei] OSPF 1 

[Huawei-OSPF-1] Area 1 

[Huawei-OSPF-1-Area-0.0.0.1] Stub 

[Huawei-OSPF-1-Area-0.0.0.1] defauit-cost 20 

# 修 改 缺 省 开销 1 为 20 

说 明 : 

区 域 类 型 为 Stub no-summary 或 nssa no-summary 会 触发 产生 LSA3 默认 路 由 。 


(2) ASBR 能 引入 外 部 路 由 , ASBR 同样 也 能 产生 默认 路 由 , 类 型 为 LSA5 或 LSA7。 
普通 或 骨干 区 域 产生 LSA5 外 部 默认 路 由 ， 而 NSSA 区 域 产 生 LSA7 外 部 默认 NSSA 路 
由 ， 用 来 指导 自治 系统 (AS) 内 设备 进行 自治 系统 外 报 文 的 转发 。 
OSPF 默认 路 由 的 发 布 原则 如 下 。 
。 OSPF 路 由 器 只 具有 对 区 域外 的 出 口 时 ， 才 能 够 发 布 默认 路 由 LSA。 
。 ”如 果 OSPF 路 由 器 已 经 发 布 了 默认 路 由 LSA， 那 么 不 再 学 习 其 他 路 由 器 发 布 的 
相同 类 型 默认 路 由 。 即 路 由 计算 时 不 再 计算 其 他 路 由 器 发 布 的 相同 类 型 的 默认 
路 由 LSA， 但 数据 库 中 存 有 对 应 的 LSA。 

。 外 部 默认 路 由 的 发 布 如 果 要 依赖 于 其 他 路 由 ,那么 被 依赖 的 路 由 不 能 是 本 OSPF 
路 由 域内 的 路 由 ， 即 不 是 本 进程 OSPF 学 习 到 的 路 由 。 因 为 外 部 默认 路 由 的 作 
用 是 用 于 指导 报 文 的 域外 转发 ， 而 本 OSPF 路 由 域 的 路 由 的 下 一 跳 都 指向 了 域 
内 ， 不 能 满足 指导 报 文 域外 转发 的 要 求 。 

e 如 果 一 台 路 由 器 同时 收 到 多 种 类 型 默认 路 由 ， 则 根据 选 路 规则 ，Type3 默认 路 
由 的 优先 级 高 于 Type5 或 Type7 路 由 。 

(3) 骨干 及 普通 区 域 中 的 默认 路 由 。 

缺 省 情况 下 ， 在 普通 OSPF 区 域内 的 OSPF 路 由 器 是 不 会 产生 默认 路 由 的 ， 即 使 它 
有 默认 路 由 。 当 网 络 中 默认 路 由 通过 其 他 路 由 进程 产生 时 ， 必 须 能 够 将 默认 路 由 通告 到 
整个 OSPF 域 中 。 这 个 时 候 要 想 产 生 默 认 路 由 必须 在 ASBR 上 手动 通过 命令 进行 配置 。 
使 用 了 该 命令 后 会 产生 一 个 Link State ID 为 0.0.0.0、 网 络 掩 码 为 0.0.0.0 的 LSA5， 并 且 
通告 到 整个 OSPF 域 中 。 
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# 命 令 格式 ， 用 来 将 默认 路 由 通告 到 普通 OSPF 区 域 ， 

default-route-advertise [ [ always | permit-calculate-other ] | cost cost | type type | route-policy route-policy-name 
[match-any ] ] * 

default-route-advertise summary cost cost 


# 将 产生 的 默认 路 由 的 LSA5 通告 到 OSPF 路 由 区 域 ， 本 地 设备 没有 默认 路 由 

<Huawei> System-view 2 

[Huawei] OSPF 1 

[Huawei-OSPF-1] default-route-advertise always 

# 无 条 件 产生 一 条 默认 路 由 

说 明 : 

骨干 区 域 和 普通 区 域 产生 LSA5 默认 路 由 使 用 default-route-advertise 命令 ， 如 果 加 always 
参数 ， 则 无 条 件 产生 默认 路 由 ， 如 果 没 有 加 always 参数 ， 则 是 有 条 件 的 ， 仅 当 路 由 表 里 有 
条 默认 路 由 (其 他 协议 或 外 部 默认 路 由 ) 才 可 以 产生 LSA5 的 默认 路 由 。 

如 果 一 台 路 由 器 产生 默认 路 由 ,车 再 接收 其 他 路 由 器 产生 的 默认 路 由 ， 容 易 出 现 路 由 
互 指 的 环 路 问题 。 


(4) NSSA 区 域 中 的 默认 路 由 。 

NSSA 命令 用 来 配置 OSPF 区 域 为 NSSA 区 域 。 

NSSA default-route-advertise 用 来 在 ASBR 上 配置 产生 LSA7 默 认 路 由 到 NSSA 区 域 。 
华为 实现 会 在 NSSA 及 Totally NSSA 边界 路 由 器 ABR 上 自动 产生 LSA7 默认 路 由 .ABR 
既然 能 产生 LSA7 默认 路 由 ， 所 以 NSSA 区 域 的 ABR 同时 也 是 ASBR。 

。 在 ABR 上 无 论 路 由 表 中 是 否 存在 默认 路 由 0.0.0.0/0, 都 会 产生 LSA7 默认 路 由 。 

。 在 ASBR 上 只 有 当 路 由 表 中 存在 默认 路 由 0.0.0.0/0， 才 会 产生 Type7 LSA 默认 

路 由 。 

如 果 希 望 到 达 自 治 系统 外 部 网 络 是 通过 本 区 域 的 ASBR 出 去 ， 而 访问 其 他 外 部 网 络 
则 是 通过 骨干 区 域 出 去 。 此 时 ， 可 在 ABR 上 产生 一 条 LSA7 的 默认 路 由 ， 通 告 到 NSSA 
区 域内 。 这 样 ， 访 问 明 细 路 由 所 对 应 的 外 部 网 络 通过 NSSA ASBR， 而 其 他 路 由 都 可 通 
过 NSSAABR 产生 的 LSA7 类 型 默认 路 由 到 达 其 他 区 域 的 ASBR 出 去 。 

如 果 希 望 访问 所 有 的 外 部 网 络 只 通过 本 区 域 ASBR 出 去 , 则 必须 在 ASBR 上 手动 配 
置 ， 使 ASBR 产生 一 条 LSA7 类 型 默认 路 由 并 通告 到 整个 NSSA 区 域 。 这 样 ， 所 有 的 外 
部 路 由 就 只 能 通过 本 区 域 NSSA 的 ASBR 到 达 。 

NSSA 区 域 产 生 默认 路 由 ， 因 为 LSA7 默认 路 由 只 在 NSSA 区 域内 泛 洪 ， 并 没有 泛 
洪 到 整个 OSPF 域 中 ， 所 以 本 NSSA 区 域内 的 路 由 器 在 找 不 到 明细 路 由 之 后 可 以 按 默认 
路 由 离开 本 区 域 。LSA7 默认 路 由 不 会 在 ABR 上 转换 成 LSA5 默认 路 由 。 


3.8 OSPFv3 


OSPFv3 是 基于 IPv6 的 OSPF 协议 ， 它 工作 在 IPv6 上 ， 类 似 于 MP-BGP， 它 可 支持 
多 协议 ,如 IPv4 及 IPv6， 华 为 目前 的 OSPFv3 实现 仅 支 持 IPv6。IETF RFC 5340 及 5838 
定义 了 OSPFv3 对 多 协议 的 支持 。 
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OSPFv3 在 OSPFv2 基础 上 进行 了 改进 ， 是 一 个 独立 的 路 由 协议 。 在 华为 设备 上 如 
果 要 支持 IPv4 和 IPv6， 需 要 同时 配置 OSPFv2 及 OSPFv3 两 个 路 由 进程 。 
OSPFv3 设计 时 基于 OSPFv2, 但 又 区 别 于 OSPFv2， 其 改进 了 OSPFv2 协议 的 缺点 ， 
增强 了 协议 的 扩展 性 及 灵活 性 。 以 下 从 OSPFv3 和 OSPFv2 对 比 的 角度 对 OSPFv3 加 以 
阐述 。 
3.8.1 OSPFv3 与 OSPFv2 的 相同 点 


OSPFv3 基于 OSPFV2， 所 以 有 很 多 相同 点 : 

网 络 类 型 和 接口 类 型 

接口 状态 机 和 邻居 状态 机 

链 路 状态 数据 库 (LSDB) 

洪 泛 机 制 

相同 类 型 的 报 文 : Hello 报 文 、DD 报 文 、LSR 报 文 、LSU 报 文 和 LSAck 报 文 
算法 及 路 由 计算 过 程 


3.8.2 ”OSPFv3 与 OSPFv2 的 不 同 点 


OSPFv3 工作 在 IPv6 上 ， 而 OSPFv2 工作 在 IPv4 上 ， 其 他 细节 如 下 。 

1. OSPFv3 基于 链 路 ， 而 不 是 网 段 

OSPFv3 运行 在 IPv6 协议 上 ，IPv6 是 基于 链 路 而 不 是 网 段 的 ， 即 不 论 接口 是 否 配置 
ULA (Unique Local Address) /GUA (Global Unicast Address) 的 地 址 ， 也 不 论 路 由 器 间 
接口 地 址 是 否 在 同一 个 网 段 ， 只 要 彼此 接 在 同一 个 链 路 上 ， 即 可 建立 OSPF 邻居 关系 。 

2，OSPFv3 利用 IPv6 链 路 本 地 地 址 

OSPFv3 使 用 链 路 本 地 地 址 《〈link-local) 来 维持 邻居 ， 同 步 LSDB。 链 路 上 的 报 文 ， 
除 Vlink 外 的 所 有 OSPFv3 接口 都 使 用 链 路 本 地 地 址 作为 报 文 源 地 址 。 

这 样 的 好 处 是 : 

e 不 需要 配置 IPv6 全 局 地 址 ， 就 可 以 得 到 OSPFv3 拓扑 ， 实 现 拓扑 与 地 址 分 离 ; 

。 ”在 链 路 本 地 地 址 上 泛 洪 的 报 文 不 会 传 到 其 他 链 路 上 , 可 减少 报 文 不 必要 的 泛 洪 。 

说 明 ;: 

。 “IPv6 的 链 路 本 地 (link-local) 地 址 用 于 在 同一 链 路 上 发 现 邻 居 及 自动 配置 等 ; 

e ”运行 IPv6 的 路 由 器 不 转发 目的 地 址 为 链 路 本 地 地 址 的 IPv6 报 文 ， 此 类 报 文 只 在 
本 地 和 链 路 有 效 ， 

。 链 路 本 地 单 播 地 址 的 前 级 是 FE80::/10。 


3. OSPFvV3 协议 报 文 上 移 除 了 “协议 地 址 ， 即 IPv4 地 址 ”的 语义 

OSPFv2 的 LSA1/LSA2 中 含有 太 多 和 IPv4 协议 地 址 相关 的 信息 ， 如 LSA1 中 的 任何 一 
种 类 型 的 Link ( 除 StubNet 外 )， 其 Link Data 是 设备 本 地 接口 的 IPv4 地 址 ，LinkID 是 DR 
的 接口 耻 或 邻居 的 RID 等 。 通 过 观察 LSA1/LSA2 的 内 容 就 可 知 OSPF 传递 的 IPv4 协议 。 

如 果 IPv6 OSPFv3 依然 使 用 这 种 方式 ，IPv6 协议 地 址 会 占用 LSA 中 过 多 字 节 空间 ， 
若 将 来 扩展 OSPFv3 使 其 支持 新 的 协议 地 址 ， 也 需要 重新 改写 协议 报 文 ， 所 以 OSPFv3 
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在 设计 现 有 的 协议 报 文 时 ， 从 LSA 中 “ 移 除 ”对 协议 地 址 的 依赖 性 。 


表 3-7 OSPFy2 和 OSPFv3 中 LSA1/2 内 容 对 比 
OspFv2RouterLSA | OSPFV3RouterLSA 
IPv4 下 OSPFv2 IPv6 下 OSPFv3 


LinkID 是 邻居 的 RID， 标 识 邻 居 节 点 使 用 接口 ID， 如 0x3， 标 识 自己 的 接口 

LinkData 使 用 自己 的 接口 人 来 标识 互联 接口 | 使 用 NeighborRID 及 邻居 接口 ID 来 表明 邻居 及 其 接口 标识 
例 : TransNet 类 型 link 
Link connected to: TransitNetwork 


例 : TransNet 类 型 Link Metric: 1 

*Link ID:10.1.123.3 Interface ID:0x3 
Data:10.1.123.2 Neighbor Interface ID:0x3 

Link Type: TransNet Neighbor Router ID:3.3.3.3 

Metric: 1 #DR 的 RID 为 3.3.3.3 


# 邻 居 的 接口 ID: 0x3 

# 自 己 互联 的 接口 ID:0x3 

例 : P2P 类 型 Link 
Link connected to: another Router (point-to-point) 
Metric: 48 


例 : P2P 类 型 Link 


ee ep Interface ID: 0x8 
Ne Neighbor Interface ID: 0x8 

# 自 己 的 接口 正 及 邻居 的 RID Neighbor Router ID: 4.4.4.4 

a # 自己 的 接口 ID:0x8 

aaa # 邻居 的 RID 及 邻居 的 接口 ID 
OspFv2NetworkLSA | OSPFv3 Network LSA 

hs i Network-LSA (Area 0.0.0.0) 

Lsid :10.1.1233 Ne 

i LS Type: Network-LSA 

> Link State ID: 0.0.0.3 
ss pe Originating Router: 3.3.3.3 
2 LS Seq Number: 0x80000003 
CR 5 Retransmit Count: 0 
Seq# : 80000004 


Checksum: 0xD823 
Length: 36 
Options: Ox000013 (-|R|-|-|EIV6) 
Attached Router: 3.3.3.3 
Attached Router: 1.1.1.1 
Attached Router: 2.2.2.2 
#Link State ID 是 DR 的 接口 ID 


经 过 上 述 对 比 ， 可 知 OSPFv3 LSA1/2 中 用 于 表述 拓扑 时 ， 用 二 元 组 [RID， 接 口 ID] 
来 取代 OSPFv2 中 针对 对 方 节 点 的 表示 ， 用 接口 ID 来 取代 本 地 接口 的 了 PP 地址 ; LSA1/2 
中 没有 使 用 任何 协议 地 址 ， 这 样 做 的 结果 是 LSA1/2 中 “拓扑 与 协议 地 址 分 离 了 ” 不 再 
依赖 于 协议 地 址 ， 这 意味 着 LSA1/LSA2 描述 的 拓扑 可 以 为 任何 协议 艇 服务 ，RFC 5838 
已 经 设计 OSPFv3 成 为 可 支持 IPv4 及 IPv6 等 协议 的 路 由 协议 ， 不 需要 为 每 个 协议 单独 
创建 协议 进程 ,但 目前 华为 尚 不 支持 .在 IPv4 和 IPv6 双 栈 的 环境 中 仍 需 同时 运行 OSPFvV2 


chksum : 0x9317 
Netmask :255.255.255.0 
Priority :Low 
Attached Router 33.3.3 
Attached Router llalst 
Attached Router .22.2 
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和 OSPFv3 的 双 进 程 。 
例外 是 OSPFv3 下 的 Vlink 场景 ， 非 直 连 的 邻居 需要 靠 Global Unicast 地 址 来 标识 。 
IPv6 全 局 地 址 仅 出 现在 Vlink 接口 及 报 文 的 转发 的 场合 。 
4. 链 路 间 的 泛 洪 范围 
OSPFv3 添加 了 链 路 间 的 泛 洪 范围 ， 新 的 LSA8 (Link LSA) 类 型 仅 可 以 在 邻居 之 间 
通告 ， 其 LSA 不 会 被 泛 洪 到 其 他 链 路 。LSA8 所 承载 的 内 容 仅 在 直 连 的 邻居 之 间 有 用 ， 
用 于 通告 该 link 上 的 前 缀 及 link-local 地 址 。 
5. OSPFv3 支持 一 个 链 路 上 多 个 进程 
OSPFv3 在 OSPF 报 文 头 添 加 了 一 个 新 的 字 域 : mstance ID， 它 是 定义 在 接口 的 标识 
OSPF 实例 的 0 一 255 的 数 。OSPFv2 下 ， 一 个 接口 上 只 能 有 一 个 OSPF 实例 运行 ， 现 在 
可 以 让 一 个 接口 同时 运行 多 个 OSPF 实例 ， 彼 此 使 用 不 同 的 Instance ID 区 分 。 这 些 运行 
在 同一 条 物理 链 路 上 的 多 个 OSPFv3 实例 分 别 与 同 链 路 上 多 个 相同 实例 ID 的 邻居 建立 邻 
居 关 系 ， 这 可 使 一 个 网 段 上 同时 出 现 多 个 OSPF 路 由 域 ， 彼 此 互 不 干扰 ， 可 以 充分 共享 
同一 链 路 资源 。 
如 果 OSPFv3 报 文 收 到 实例 号 不 同 的 Hello 报 文 ， 则 忽略 ， 邻 居 关 系 建立 不 起 来 。 
<R2>display OSPFv3 int GO/0/0 
GigabitEthernet0/0/0 is up, line protocol is up 
Interface ID 0x3 
Interface MTU 1500 
IPv6 Prefixes 
FE80::2E0:FCFF:FE60;3484 (Link-Local Address) 
2000:1:2:123::2/64 
OSPFv3 Process (1), Area 0.0.0.0, Instance ID 0 
#G0/0/0 接口 OSPF 接口 的 实例 号 为 0 
Router ID 2.2.2.2, Network Type BROADCAST, Cost: 1 
Transmit Delay is 1 sec, State Backup, Priority 1 
Designated Router (ID) 3.3.3.3 
Interface Address FE80::2E0:FCFF'FEB7:1A5 
Backup Designated Router (ID) 2.2.2.2 
Interface Address FE80::2E0:FCFF:FE60:3484 
Timer interval configured, Hello 10, Dead 40, Wait 40, Retransmit 5 
Hello due in 00:00:10 
Neighbor Count is 2, Adjacent neighbor count is 2 
Interface Event 3, LSA Count 3, LSA Checksum 0x105f 
Interface Physical BandwidthHigh 0, BandwidthLow 1000000000 
# 接 口 默 认 的 实例 全 为 0 


日 Open Shortest Path First 

B OSPF Header 
Version: 3 
Message Type: Hello packet (1) 
Packet Length: 44 
source OSPF Router: 2.2.2.2 (2.2.2.2) 
Area ID: 0.0.0.0 (0.0.0.0) (Backbone) 
Checksum: Oxb4ai [correct] 
[Instance ID: IPv6 unicast AF (0) | 
Reserved: 00 

田 OSPF Hello Packet 








图 3-67 OSPF Hello 


实例 号 出 现在 OSPFv3 头 中 ， 通 过 定义 不 同 的 值 实现 OSPF 实例 隔离 。 
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6. OSPFvV3 移 除 所 有 认证 字段 

OSPFv3 移 除 OSPFv2 的 接口 或 区 域 下 的 验证 ， 原 因 是 OSPFv3 可 直接 使 用 IPv6 扩 
展 报 文 头 的 认证 及 安全 机 制 ， 不 需要 再 重复 提供 认证 ， 使 用 协议 时 只 需 关 注 协 议 本 身 即 
可 ， 降 低 协 议 的 复杂 性 。 

7.OSPFv3 只 通过 Router ID 来 标识 邻居 

OSPFv3 只 通过 Router ID 来 标识 邻居 ， 这 样 即 使 没有 配置 IPv6 全 局 地 址 ， 或 是 
IPv6 全 局 地 址 配置 都 不 在 同一 网 段 ，OSPFv3 的 邻居 仍 可 以 建立 起 来 。OSPFv3 中 
Router ID 和 OSPFv2 中 一 样 ， 是 32 位 的 数 ， 在 OSPFv3 中 ， 可 手工 为 OSPFv3 路 由 
器 设置 Router ID。 

8. 新 增 两 种 LSA 

Link LSA: 用 于 宣告 链 路 上 的 Link-local 地 址 及 IPv6 Prefix 地 址 ， 其 仅 在 本 地 链 路 

Intra Area Prefix LSA: 用 于 向 其 他 路 由 器 宣告 本 路 由 器 或 本 网 络 (广播 网 及 NBMA) 
的 IPv6 全 局 地 址 信息 ， 在 区 域内 洪 泛 。 


3.8.3 ” OSPFv3 中 LSA 的 定义 


3.8.3.1 类 型 分 类 
表 3-8 列 出 新 的 LSA 及 其 对 应 类 型 ，OSPFv3 添加 新 的 类 型 Link LSA 和 Intra Area 
Prefix LSA。 


表 3-8 OSPFv3 与 OSPFv2 LSA 对 比 
eR 
Deol 7 7 le | Kover LSA 
Do Nemwork LSA 
0x2003 Network Summary LSA 
0x4005 AS-External LSA 
0x2006 | ”Group MembershipLSA | 6 | Group Membership LSA 
0x2007 NSSA External LSA 
050008 上 | 二 AD | No Corresponding LSA 
0x2009 | IntaAreaPrefixLSA | | No Corresponding LSA 


3.8.3.2 泛 洪 范 图 
OSPFv3 LSA 头 中 没有 Options 字 域 ， 图 3-68 中 ，Link State Type 是 16 位 字 域 ， 
不 同 于 OSPFv2 的 8 位 字 域 ，OSPFv3 对 LinkStateType 的 高 3 位 做 了 定义 ,代表 泛 洪 
范围 。 
e。 了 位 : 图 3-69 中 , U 代表 如 果 路 由 器 并 不 识别 该 LSA 的 时 候 该 怎么 做 。 如 果 TU 
位 没有 置 位 ， 对 未 知 的 LSA 仅 在 直 连 链 路 间 泛 洪 。 如 果 U 位 置 位 ， 对 未 知 的 
LSA 像 已 知 的 LSA 一 样 ， 存 储 并 泛 洪 ， 默 认为 0。 
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8 8 
Link State Age Link State Type 





图 3-68 OSPFv3 LSA 头 格式 图 3-69 ”Link State Type 字 域 高 三 位 


ee S2 和 SIl 位: S2 和 Sl 组 合 定义 了 LSA 的 泛 洪 范围 ， 表 3-8 中 ,高 4 位 所 确定 
的 数值 0x0 代表 Link-local 范围 ，0x2 代表 区 域内 泛 洪 ，0x4 代表 整个 路 由 域 泛 
洪 ， 其 Link-local 泛 洪 范围 是 OSPFv3 新 添加 的 一 类 范围 。 

。 其 他 位 的 LSA function code， 不 同 数值 代表 不 同类 型 的 LSA。 

表 3-9 S2、S1 定义 的 泛 洪 范围 


AS (Routing Domain) 
Reserved 





3.8.4 ”OSPFv3 中 新 LSA 及 其 对 收敛 的 影响 
Link LSA 


Link LSA 用 于 通告 在 本 链 路 上 直 连 的 路 由 器 间 有 用 的 信息 , 接 在 本 链 路 上 的 每 台 路 
由 器 都 通告 自己 的 Link LSA 到 直 连 链 路 。 当 然 ， 路 由 器 也 会 从 该 接口 收 到 所 有 接 在 这 
条 链 路 上 的 其 他 路 由 器 的 Link LSA。Link LSA 中 包含 以 下 内 容 。 

。 ”向 链 路 上 的 其 他 路 由 器 通告 本 地 Link-local 地 址 。 

由 于 OSPFv3 Router LSA 中 Link Data 中 移 除 了 协议 地 址 , 代 之 以 接口 DD, 拓扑 在 表达 
连接 关系 时 多 用 接口 ID 来 描述 。 但 在 路 由 计算 时 ， 如 果 计 算 经 过 邻居 的 接口 0x3 要 访问 目 
标 网 络 的 路 由 时 , 需 在 当前 路 由 表 里 添加 邻居 的 0x3 接口 所 对 应 的 IPV6 地 址 来 充当 下 一 跳 。 
OSPFv3 路 由 的 下 一 跳 地 址 一 律 是 Link-local 地 址 ， 当 前 路 由 器 知道 0x3 接口 的 Link-local 
地 址 需要 用 到 邻居 通告 的 Link LSA， 其 中 包含 0x3 和 Link-local 地 址 的 对 应 关系 。 

se。 通告 关联 在 路 由 器 上 且 出 现在 该 链 路 上 的 所 有 IPv6 前 缀 信息 。 

在 OSPFv3 中 ， 区 域内 的 每 个 节点 上 的 所 有 前 缀 都 包含 在 Intra-Area Prefix LSA 中 ， 
但 Intra-Area Prefix LSA 中 并 没有 清楚 说 明 哪 些 前 缀 各 自 对 应 着 哪 条 链 路 ， 而 Link LSA 
负责 通告 指定 链 路 上 的 前 级 信息 。 

。 ”如果 是 MA 网 络 ， 通 告 LSA2 中 选项 位 的 置 位 情况 。 

Intra—Area Prefix LSA 

OSPFv2 的 主要 缺点 除了 不 能 支持 IPv6 外 ， 还 在 于 其 LSA1/LSA2 会 承载 和 拓扑 结 
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构 无 关 的 网 络 信息 ， 所 以 重新 设计 OSPFv3 时 ， 将 LSALLSA2 中 的 网 络 信息 移 除 至 
Intra-Area Prefix LSA 中 ， 此 处 简称 LSA9。LSAo9 的 作用 是 携带 区 域内 的 网 络 信 息 ， 即 
原 OSPFv2 的 RouterLSA 中 的 Stub 网 络 信息 和 LSA2 中 的 网 络 信息 ， 放 到 OSPFv3 的 
LSA9。 这 样 ， 实 现 拓扑 信息 和 网 络 信息 分 别 使 用 不 同 的 LSA 来 携带 。 

在 OSPFv3 中 ， 接 口上 GUA/ULA 地 址 配置 错误 及 不 一 致 都 不 会 影响 OSPFv3 的 邻 
居 关 系 。GUA 及 ULA 前 级 相对 于 节点 本 身 而 言 ， 就 相当 于 树 节点 上 挂 的 叶子 节点 。 所 
以 接口 的 前 绥 发 生变 化 不 影响 网 络 拓扑 ， 不 会 触发 SPF 计算 。 

LSA8 实现 拓扑 和 协议 地 址 分 离 

LSA1/LSA2 移 除 了 对 协议 地 址 的 依赖 ， 不 再 包含 接口 的 协议 地 址 ， 而 换 之 以 接口 
ID， 这 实现 了 拓扑 和 协议 地 址 的 分 离 。 但 计算 路 由 时 ， 仍 需要 接口 IPv4 或 IPv6 地 址 
作为 下 一 跳 ， 所 以 分 离 后 的 接口 协议 地 址 由 LSA8 提供 。 同 时 ，LSA9 虽 通 告 区 域内 的 
前 级 ， 但 由 于 LSA1/2 的 接口 用 ID 表示 ， 无 法 说 明 LSA9 中 所 包含 的 前 级 属于 哪个 具 
体 的 接口 ， 所 以 LSA8 在 完成 接口 ID 和 接口 Link-local 地 址 对 应 的 同时 ， 还 包含 接口 
上 所 拥有 的 前 绥 。 

通告 Link-local 地 址 、 前 级 、 接 口 DD 的 LSA8 仅 在 直 连 路 由 器 之 间 知 道 即 可 ， 没 必 
要 在 全 网 泛 洪 ， 所 以 限定 LSA8 仅 在 直 连 链 路 上 泛 洪 。 

LSA9 实现 拓扑 和 网 络 信息 的 分 离 

Link9 通告 每 个 节点 (包含 虚 节 点 和 实 节点 ) 的 网 络 信 息 ， 其 内 容 是 原 LSA1 中 的 
StubNet 和 LSA2 中 的 网 络 信息 。 设 计 LSA9 后 ，LSA1 和 LSA2 中 仅 包 含 用 于 拓扑 计算 
的 拓扑 信息 ， 区 域内 的 网 络 信息 使 用 LSA9 (正确 的 说 是 LSA 2009) 来 携带 。 这 样 网 络 
信息 的 变化 仅 影响 LSA9， 而 不 会 导致 拓扑 的 重新 计算 ， 所 以 LSA9 的 设计 实现 了 拓扑 
和 网 络 信息 的 解 耦 。 

定义 LSA9 使 得 接口 前 级 变化 ， 不 会 触发 拓扑 的 计算 。 这 使 OSPFv3 更 适宜 支持 更 
多 的 协议 ， 不 论 是 支持 何 种 协议 ，OSPFv3 仅 需 要 改造 LSA8 及 LSA9 即 可 ，LSA1/2 不 
做 任何 改动 。 这 使 OSPFv3 具备 很 强 的 扩展 性 和 支持 多 协议 的 能 力 ，IETF RFC5340 和 
RFC 5838 定义 了 OSPFv3 可 支持 多 协议 地 址 簇 , 如 使 OSPFv3 承载 IPv4 路 由 、 承载 IPv6 
路 由 等 ， 目 前 华为 尚 没有 实现 。 

对 收效 的 影响 

RouterLSA 和 Network LSA 在 OSPFv3 中 , 不 再 负责 通告 前 级 。 所 以 , 在 LSA1 中 ， 
看 不 到 描述 前 缀 的 Stubb， 在 LSA2 中 ， 也 看 不 到 定义 网 络 的 掩 码 。 这 对 OSPFv3 是 个 改 
进 ， 它 使 协议 可 以 使 用 单独 的 一 类 LSA 去 做 前 缀 通告 ， 在 区 域内 ， 设 计 了 Intra-Area Prefix 
LSA。 

之 所 以 会 有 这 种 变化 (或 者 其 变化 的 必然 性 在 于 )，OSPFv2 中 LSA1/LSA2 含有 拓 
扑 和 网 络 信息 ， 当 网 络 发 生变 化 时 ，OSPFv2 路 由 器 会 更 新 LSA 通告 这 些 变化 ， 若 LSA 
中 含有 的 拓扑 信息 发 生变 化 ， 则 新 的 LSA 会 触发 FULL SPF 或 iSPF 计算 ， 如 果 仅 Stub 
网 络 变化 了 ， 新 的 LSA 触发 SPF 计算 ， 拓 扑 计算 前 后 的 结果 一 样 ， 浪 费 资源 。OSPFv3 
把 网 络 放 在 LSA9 中 ， 只 有 LSA1/2 才 会 触发 SPF 执行 拓扑 计算 ， 所 以 LSA9 的 变化 或 
产生 ， 不 会 触发 SPF 计算 ， 节 省 计算 资源 的 同时 ， 计 算 时 间 也 很 短 。 

OSPFv3 相 比 OSPFv2 在 收敛 时 间 上 会 快 很 多 。 
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原因 是 由 于 相 比 于 OSPFv2, OSPFv3 中 , Intra-Area Prefix、 Inter-Area Prefix、 Inter-Area 
Router、as-external LSA 及 type-7 LSA, 这 些 是 OSPF 中 传递 网 络 前 级 或 成 本 信息 的 LSA。 
它们 的 任何 变化 ， 只 要 拓扑 没有 同时 发 生变 化 ， 只 会 触发 局 部 路 由 计算 。 


3.8.5 ”OSPFv3 配置 实例 


所 有 的 路 由 器 都 运行 OSPFV3， 整 个 自治 系统 划分 为 三 个 区 域 。 其 中 ，R4 和 R5 处 
在 区 域 之 间 ， 地 址 规划 是 2000:1:2:XY::Z/64，X 和 YY 是 路 由 器 编号 ， 而 Z 是 接口 ， 使 用 
相应 路 由 器 的 编号 ， 每 台 路 由 器 的 RID 为 X.X.X.X，X 是 路 由 器 编号 ， 如 图 3-70 所 示 。 

需求 1: 

(1) 保证 全 网 连通 性 ， 要 求 R1 能 访问 R6 的 回环 接口 2000:1:2:6::6; 

(2) 在 不 影响 路 由 的 可 达 性 的 前 提 下 ， 尽 量 减少 Area2 区 域内 的 路 由 数量 。 

Area0 Areal Area2 
Loop0:2000:1:2:2::2/128 Loop0:2000:1:2:4::4/128 ”Loop0:2000:1:2:5::5/128 2000:1:2:6::6/128 
2 GO0/0 EB cool oc00 EE 












R3 
Loop0:2000:1:2:3::3/128 


图 3-70 OSPFv3 多 区 域 


配置 过 程 : 

(1) 完成 OSPFv3 基本 配置 ， 包 括 Vlink 配置 ; 

(2) R5 向 R6 通告 Area0 路 由 时 ， 可 在 区 域 边界 聚合 ， 抑 制 Area0 中 的 明细 网 络 。 
完成 基本 配置 。 


从 图 中 可 以 看 出 ，R4 和 R5 间 需 要 配置 Vlink。 

#R1 配置 

IPv6 

并 

interface GigabitEthernet0/0/0 
IPv6 enable 
IPv6 address 2000:1:2:123::1/64 
ospfv3 1 area 0.0.0.0 

# 

interface LoopBack0 
IPv6 enable 
JPv6 address 2000:1:2:1::1/64 
ospfv3 1 area 0.0.0.0 

# 

ospfv3 1 
router-id 1.1.1.1 

# 

# 

R2 的 配置 
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Virtual Link VLINK1 to router $5.5.5.5 is up 


Transit area 0.0.0.1 via interface gigabitEthernet0/0/0, instance ID 0 
Local address 2000:1:2:45::4 


Remote address 2000:1:2:45::5 
Interface ID 0x80000001 
VirtualInterface Event: $ 


VirtualInterface LsaCount: 0 


VirtualInterface Lsa Checksum: Ox0 


Transmit Delay is 1 sec, State Point-To-Point, Cost 1 
Timer intervals configured, Hello 10, Dead 40, Wait 40, Retransmit 5 


Adjacency state Full 
#R4 和 R5 Vlink 邻居 关系 正常 


测试 : 


<R1>display IPv6 routing-table | include Destination 
Routing Table : Public 
Destinations : 16 Routes : 16 


Destination 
Destination 
Destination 
Destination 
Destination 
Destination 
Destination 
Destination 
Destination 
Destination 
Destination 
Destination 
Destination 
Destination 
Destination 


Destination : 
在 R1 上 tracert 目标 地 址 为 2000:1:2:6::6。 
<R1>tracert IPv6 2000:1:2:6::6 

traceroute to 2000;1;2:6::6 ~ 30 hops max,60 bytes packet 

1 2000:1:2:123;:2 40 ms 50ms 40ms 

2 2000:1:2:24::440 ms 50ms 40ms 

3 2000:1:2:45::5 S0 ms S50ms 40ms 

42000:1:2:6::6 100 ms 40ms 60ms 


需求 2: 减少 Area2 里 路 由 表 的 大 小 。 


?| 

, 2000:1:27:15 
:2000:1:2:1::1 
:2000:1:2:2::2 
;2000:1:2:3;:3 

: 2000:1:2:4::4 
:2000:1:2:5;:5 
:2000:1:2:6::6 

1 2000:1:2:24: 
:2000:1:2:45:: 
:2000:1:2;45::4 
;2000:1:2:45::5 
:2000:1;2:56:; 

1 2000:1:2:123: 
: 2000:1:2:123;:1 PrefixLength : 


FE80:: 


PrefixLength : 
PrefixLength : 
PrefixLength : 
PrefixLength : 
PrefixLength : 
PrefixLength : 
PrefixLength : 
PrefixLength : 
PrefixLength : 
PrefixLength : 
PrefixLength : 

PrefixLength : 

PrefixLength : 

PrefixLength : 


PrefixLength : 


# R6 上 IPv6 路 由 表 〈 未 作 聚 合 前 ) 

<R6>dis IPv6 routing-table | include Destination 

Routing Table : Public 
Destinations : 16 Routes ; 16 


Destination 
Destination 
Destination 
Destination 
Destination 
Destination 
Destination 


tl 

: 2000:1:2:1::1 
: 2000:1:2:2::2 
:2000:1:2:3::3 
: 2000:1:2:4::4 
: 20007]1:2:5::5 
00011 267 


#R2 
#R4 
#R5 
#R6 


,128 


64 


128 


128 
128 


10 


PrefixLength : 128 
PrefixLength : 128 
PrefixLength : 128 
PrefixLength : 128 
PrefixLength : 128 
PrefixLength : 128 
PrefixLength : 64 


Hello due in 00:00:;07 
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Destination :2000:1:2:6::6 PrefixLength : 128 
Destination :2000:1:2:24:: PrefixLength : 64 
Destination :2000:1:2:45:: PrefixLength : 64 
Destination :2000:1:2:45::4 PrefixLength : 128 
Destination :2000:1:2:45::5 PrefixLength : 128 
Destination :2000:1:2:56:: PrefixLength : 64 
Destination :2000:1:2:56::6 PrefixLength : 128 
Destination :2000:1:2:123:: PrefixLength : 64 
Destination :FE80:: PrefixLength : 10 


#R5 上 执行 路 由 聚合 

IPv6 

# 

ospfv3 1 
router-id 5.5.5.5 
area 0.0.0.1 

Vlink-peer 4.4.4.4 
ABR-summary 2000:1:2:: 48 

四 

<R6>display IPv6 routing-table | include Destination 

Routing Table : Public 

Destinations : 11 Routes : 11 

Destination :::1 PrefixLength : 128 
Destination  :; 2000:1:2:: PrefixLength : 48 
Destination :2000:1:2:5::5 PrefixLength : 128 
Destination : 2000:1:2:6:: PrefixLength : 64 
Destination :6::6 PrefixLength : 128 
Destination :2000:1:2:45:: “PrefixLength : 64 
Destination :2000:1:2:45::4 PrefixLength : 128 ~ 
Destination :2000:1;2:45::5 PrefixLength : 128 
Destination :2000:1:2:56:: PrefixLength : 64 
Destination :2000:1:2:56::6 PrefixLength : 128 
Destination : FE80:: PrefixLength : 10 









观察 LSA1、LSA2、LSA8 及 LSA9。 


<R1>display ospfv3 lsdb 
* indicates STALE LSA 
OSPFv3 Router with ID (1.1.1.1) (Process 1) 
Link-LSA (Interface GigabitEthernet0/0/0) 
Link State ID Origin Router Age Seq# CkSum Prefix 


0.0.0.3 Dll 0831 0x80000004 0x0446 1 
0.0.0.3 .22.2 0676 Ox80000003 0xc2a2 i 
0.0.0.3 3.3.3 0166 0x80000003 0x0ef7 1 
Router-LSA (Area 0.0.0.0) 

Link State ID Origin Router Age Seq# CkSum Link 
0.0.0.0 411 0159 Ox80000009 0xeale 1 
0.0.0.0 ,2-22 0045 Ox80000011 0xe0ba 2 
0.0.0.0 3.3.3.3 0090 ”0x80000018 0x9061 1 
0.0.0.0 4.4.4.4 0494 ”0x8000000c 0x226e 2 
0.0.0.0 5.5.5.5 0496 Ox80000007 0x4ba3 1 


Network-LSA (Area 0.0.0.0) 
Link State ID Origin Router Age Seq# CkSum 
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0.0.0.3 ll 0159 Ox80000004 0x43bf 


Inter-Area-Prefix-LSA (Area 0.0.0.0) 


Link State ID Origin Router Age Seq# CkSum 
0.0.0.1 4.4.4.4 0109 Ox80000003 0x9b93 
0.0.0.2 4.4.4.4 0104 Ox80000003 0x5dlc 
0.0.0.3 4.4.4.4 0502 Ox80000001 Oxab81 
0.0.0.4 4.4.4.4 0502 Ox80000001 Ox1d4f 
0.0.0.1 435 0496 0x80000003 0x1357 
0.0.0.2 455.3 0496 0x80000003 0x3b2b 
0.0.0.3 5.5.5.5 0496 0x80000003 0x353f 
0.0.0.4 5.55.5 0496 Ox80000003 0x65c1 
0.0.0.5 .8.55 0496 0x80000003 0x6fb6 
0.0.0.6 5.5.5.5 0496 0x80000003 0x4a16 


Intra-Area-Prefix-LSA (Area 0.0.0,0) 


Link State ID Origin Router Age Seq# CkSum Prefix Reference 
0.0.0.1 LLLl 0159 Ox8000000d 0xac95 1 Router-LSA 
0.0.0.2 lll 0158 Ox80000005 0x511c 1 Network-LSA 
0.0.0.1 92702 0039 Ox800000170xda8e 2 Router-LSA 
0.0.0.1， 3 了 3 0090 ”0x8000001d 0x2df0 1 Router-LSA 
0.0.0.1 4.4.4.4 0492 0x8000000d 0x8fcf 2 Router-LSA 


以 下 是 OSPFv3 下 R1 中 所 看 到 的 LSA 的 内 容 。 
#R1、R2 和 R3 的 Router LSA 
Router-LSA (Area 0.0.0.0) 
LS Age: 316 
LS Type: Router-LSA 
Link State ID: 0.0.0.0 
Originating Router: 1.1.1.1 
LS Seq Number: 0x80000009 
Retransmit Count: 0 
Checksum: 0xEA1E 
Length: 40 
Flags: 0x00 (-|-|-|-|-) 
Options: 0x000013 (-|Rj-|-|EIV6) 


Link connected to: a Transit Network 
Metric: 1 
Interface ID; 0x3 
Neighbor Interface ID: 0x3 
Neighbor Router ID: 1.1.1.1 


LS Age: 202 

LS Type: Router-LSA 

Link State ID: 0.0.0.0 
Originating Router: 2.2.2.2 

LS Seq Number: 0x80000011 
Retransmit Count: 0 

Checksum: 0xEOBA 

Length: $6 

Flags: Ox00 (-|-|-|-|-) 

Options: 0x000013 (-|R|-|-|E|V6) 
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3.9 


3 


思考 题 


1. 请 解释 什么 是 OSPF 的 可 靠 泛 洪 ? OSPF 在 泛 洪 LSA 时 能 否 形 成 环 路 ? 
2. LSA1 和 LSA2 是 如 何 构建 出 区 域内 的 拓扑 的 ? 

2 汗 

4. Vlink 是 如 何 计算 链 路 成 本 的 ? 它 的 成 本 和 Vlink 的 单 播 耳 是 否 有 关系 ? 


LSA3 和 LSA4 是 由 什么 设备 产生 的 ? 设备 为 什么 要 产生 这 几 种 LSA? 


区 域 1 里 的 ASBR 通告 外 部 路 由 100.1.1.0/24， 该 LSA5 泛 洪 到 区 域 0， 请 问 骨 


干 区 域 中 的 路 由 器 是 如 何 计算 出 该 路 由 的 成 本 及 下 一 跳 的 ? 


6. 


骨干 区 域 中 的 路 由 器 是 如 何 知道 区 域 1 中 的 某 台 路 由 器 消失 了 ? 如 果 区 域 1 中 


的 路 由 器 都 正常 ， 人 请 问 ， 骨干 区 域 路 由 器 是 如 何 检 
测 到 故障 的 ? 
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7. 过 滤 LSA 和 过 滤 路 由 是 有 区 别 的 ， 请 问 : 什么 场景 下 需要 过 滤 LSA? 什么 场景 
下 需要 过 滤 路 由 ? 

8， 华 为 在 NSSA 区 域 的 ABR 上 会 产生 LSA7 类 型 的 默认 路 由 ， 如 果 NSSA 区 域 是 在 
双 ABR 的 场景 下 ， 请 问 一 台 ABR 上 的 默认 路 由 能 和 否 通过 另外 一 台 ABR 流入 骨干 区 域 ? 

9. 如 图 3-71 所 示 ，R2 和 R3 路 由 器 都 通过 命令 同时 配置 为 7/5 翻译 器 ， 请 分 析 ， 
NSSA 区 域 中 的 R4 引入 的 外 部 路 由 (100.1.1.0〉 是 如 何 通告 到 骨干 区 域 以 及 R1 骨干 区 
域 路 由 器 是 如 何 访问 网 络 100.1.1.0/24 的 ? 


Se 
100.1.1.0/24 





图 3-71 ” OSPF 区域 间 互 访 


10. 图 3-72 中 ，R2 的 LSDB 中 ，Link8 LSA 共有 多 少 份 ? LSA9 有 多 少 份 ? R1 和 
R2 间 的 网 络 现在 由 哪 份 LSA 来 通告 ? 





RI 


图 3-72 ” OSPFv3 互通 


11. OSPF 在 Hub-and-Spoke 的 FrameRelay 环境 上 运行 时 ， 如 果 Spoke 之 间 使 用 peer 
单 播 命令 建立 OSPF 邻居 关系 ， 请 问 能 否 建立 起 来 ， 为 什么 ? 








第 四 章 
IS—IS 


本 章 阐述 了 集成 IS-IS 协议 的 网 络 结构 、IS-IS 报 文 的 具体 内 容 及 人 作用， 描述 了 IS-IS 
协议 作为 一 种 链 路 状态 协议 是 如 何 使 用 泛 洪 机 制 来 实现 链 路 状态 数据 库 同步 的 ， 解 释 了 
IS-IS 协议 的 快速 收敛 算法 及 在 IPv6 网 络 中 的 应 用 。 


本 章 包含 以 下 内 容 : 


© IS-IS 基本 概念 

@ IS-IS 的 邻接 关系 

@ IS-IS 的 报 文 

© IS-IS 链 路 状态 数据 库 的 同步 
@ IS-IS 网 络 故 障 排除 

© IS-IS For IPv6 
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4.1 1S-IS 基础 


4.1.1 历史 及 OSI 模型 


IS-IS 最 初 起 源 于 DEC 公司 的 PhaseV 网 络 协 议 ， 后 来 ITU 将 其 标准 化 为 OSI 协议 
栈 中 的 路 由 协议 ， 命 名 为 IntermediateSystem-IntermediateSystem。 由 于 IS-IS 取 自 于 仅 工 
作 在 DataLinkLayer 的 DEC PhaseV 协议 ， 所 以 IS-IS 也 仅 被 设计 为 并 仅 工 作 在 OSI 协议 
栈 的 数据 链 路 层 中 ， 而 不 能 工作 在 IP 协议 栈 中 。20 世纪 80 年 代 ， 由 于 美国 政府 要 求 所 
有 系统 都 要 安装 OSI 协议 套件 而 被 广泛 使 用 。 

由 于 卫 协议 栈 的 广泛 使 用 ，IETF 开始 开发 可 为 IP 工作 的 IS-IS，RFC 1195 对 IS-IS 
进行 了 扩充 和 修改 ， 使 它 能 够 同时 应 用 在 TCP/IP 和 OSI (Open System Interconnection ) 
环境 中 ， 称 为 集成 IS-IS 〈Integrated IS-IS 或 Dual IS-IS)。IETEF 工作 组 定义 了 大 量 TLV 
结构 ， 使 其 可 以 携带 IP 路 由 信息 ， 但 协议 的 本 身 仍 是 OSI 协议 。 所 以 ， 运 行 集成 IS-IS 
的 路 由 器 必 是 双 栈 ， 既 含有 OSI 协议 栈 ， 又 含有 卫 协议 的 设备 。 

20 世纪 90 年 代 初 ,美国 运营 商 大 量 使 用 友 商 的 网 络 设备 , 但 由 于 其 开发 的 OSPF 不 成 
熟 ， 导 致 运营 商 转 而 开始 使 用 集成 IS-IS 作为 运营 商 内 部 骨干 网 协议 。 由 于 集成 IS-IS 稳定 ， 
收敛 快 ， 支 持 大 量 路 由 设备 的 能 力 ， 因 此 ISP 都 相继 选用 IS-IS 作为 内 部 骨干 IGP 协议 。 

本 资料 中 所 指 的 IS-IS， 如 不 加 特殊 说 明 ， 均 指 集成 IS-IS。 

随 着 IPv6 网 络 的 建设 ，IETF 已 定义 RFC5038 为 IS-IS 添加 了 对 IPv6 的 支持 。 


4.1.2 _ IS-IS 地 址 


网 络 服务 访问 点 NSAP (Network Service Access Point) 是 OSI 协议 中 用 于 定位 资源 
的 地 址 。 如 图 4-1 所 示 ， 它 由 IDP (Initial Domain PRt) 和 DSP (Domain Specific PRt) 
组 成 。IDP 和 DSP 的 长 度 都 是 可 变 的 ，NSAP 总 长 最 多 是 20 个 Byte， 最 少 是 8 个 Byte。 





AFI | pr | High Order DSP System ID SEL (1 octet) 





| Area Address 


图 4-1 IS-IS 协议 地 址 结构 


IDP 相当 于 卫 地 址 中 的 主 网 络 号 。 它 是 由 ISO 规定 , 并 由 AFI (Authority and Format 
Identifier) 与 IDI〈Initial Domain Identifier) 两 部 分 组 成 的 。AFI 表示 地 址 分 配 机 构 和 地 
址 格式 ，IDI 用 来 标识 域 。 

DSP 相当 于 了 下地 址 中 的 子 网 号 和 主机 地 址 。 它 由 High Order DSP、System ID 和 SEL3 
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个 部 分 组 成 。High Order DSP 用 来 分 割 区 域 ， 相 当 于 子 网 号 。 而 System ID 用 来 在 区 域 
中 唯一 区 分 主机 ， 在 一 个 区 域 中 ， 不 存在 一 致 的 System ID 的 主机 。SEL (NSAP Selector) 
用 来 代表 每 个 主机 上 的 特定 服务 类 型 ， 相 当 于 协议 号 。 

所 以 访问 某 个 目标 主机 上 的 特定 服务 , 先 根据 Area 路 由 到 相应 区 域 边界 , 由 区 域 边 
界 路 由 器 再 根据 主机 路 由 表 ， 定 位 到 特定 SysID 的 主机 。 

1. 区 域 地 址 

IDP 和 DSP 中 的 High Order DSP 组 合 在 一 起 ， 作 为 节点 所 在 区 域 的 标识 。 既 能 够 标 
识 路 由 域 , 也 能 够 标识 路 由 域 中 的 区 域 , 因此 , 它们 一 起 被 称 为 区 域 地 址 (Area Address )， 
相当 于 OSPF 中 的 区 域 编号 。 同 一 Level-1 区 域内 的 所 有 路 由 器 必须 具有 相同 的 区 域 地 址 ， 
Level-2 区 域内 的 路 由 器 可 以 具有 不 同 的 区 域 地 址 。 

一 般 情 况 下 ， 一 个 路 由 器 只 需要 配置 一 个 区 域 地 址 ， 且 同一 区 域 中 所 有 节点 的 区 域 
地 址 都 要 相同 。 为 了 支持 区 域 的 平滑 合并 、 分 割 及 转换 ， 在 设备 的 实现 中 ， 一 个 IS-IS 
进程 下 最 多 可 配置 3 个 区 域 地 址 。 

2. System ID 

System ID 用 来 在 一 个 区 域内 唯一 标识 一 台 主 机 或 路 由 器 。 在 华为 的 实现 中 ， 它 的 
长 度 固定 为 6Byte。 不 同 于 卫 网 络 中 协议 地 址 的 定义 ,IS-IS 并 没有 为 每 个 接口 定义 地 址 ， 
即 每 一 个 接口 是 没有 地 址 的 ， 全 局 一 个 SysID。 

在 实际 应 用 中 ， 一 般 使 用 Router ID 与 System ID 进行 对 应 。 假 设 一 台 路 由 器 使 用 接 
口 Loopback0 的 IP 地 址 168.10.1.1 作为 Router ID， 则 它 在 IS-IS 中 使 用 的 System ID 可 
通过 如 下 方法 转换 得 到 。 

将 人 * 地址 168.10.1.1 的 每 个 十 进 制 数 都 扩展 为 3 位， 不足 3 位 的 在 前 面 补 0， 得 到 
168.010.001.001 。 将 扩展 后 的 地 址 分 为 3 部 分 ， 每 部 分 由 4 位 数字 组 成 ， 得 到 
1680.1000.1001。 重 新 组 合 的 1680.1000.1001 就 是 System ID。 

实际 System ID 的 指定 可 以 有 不 同 的 方法 ， 但 要 保证 能 够 唯一 标识 主机 或 路 由 器 。 

3. SEL 

SEL 的 作用 类 似 耳 中 的 “协议 标识 符 ” 不 同 的 传输 协议 对 应 不 同 的 SEL。 在 耳 上 
SEL 均 为 00。 

通常 ， 在 一 个 区 域 中 的 所 有 节点 必须 要 有 一 样 的 区 域 号 ， 不 过 ， 有 时 一 个 Area 可 能 
会 有 多 个 区 域 地 址 。 


4.1.3 IS-IS 报 文 结构 


IS-IS 报 文 是 直接 基于 数据 链 路 层 协议 封装 的 ， 每 个 报 文 由 报头 和 TLV 字段 组 成 ， 其 中 
报头 又 分 为 通用 报头 和 专用 报头 ， 每 种 报 文 的 通用 报头 〈 前 8Byte) 是 一 样 的 ， 但 是 专用 报头 
根据 报 文 的 不 同 而 不 同 ， 并 且 每 种 报 文 所 支持 的 TLV 不 同 〈 关 于 TLYV 的 内 容 后 面 再 介绍 )。 

IS-IS 报 文 结构 如 图 4-2 所 示 。 


PDU common header PDU specific header VRiable length fields (TLV) 


图 4-2 IS-IS 报 文 格式 
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IS-IS 的 Hello 包 格 式 : 


田 IEEE 802.3 Ethernet 
田 Logical-Link Control 
日 TI50 10589 ISIS InTRA Domain Routeing Information Exchange Protocol 
Intra Domain Routing Protocol Discriminator: ISIS (Ox83) 
PDU Header Length: 27 
Version (==1): 1 
system ID Length: 6 
PDU Type : L1 HELLO (R:000) ISIS Header 
Version2 (==1): 1 
Reserved Se 0 









Circuit type : Level 1 only, reserved(0x00 == 0) 
System-ID {Sender of PDU} : 0000.0000.0001 
Holding timer: 30 
PDU length: 1497 Hello Header 
Priority : 64, reserved(0x00 == 0) 
System-ID fDesignated Is} : 0000.0000.0002. 0 
Area address(es) (2) 
Is Neighbor (s) (6) 
IS Neighbor: HuaweiTe_c3:78:57 
IP Interface address(es) (4) 
IPv4 interface address: 10.1.1.1 {10.1.1.1) 
Protocols supported (1) TLV 
NLPID(S): IP 《0xcc) 
Restart Signaling (3) 
Multi Topology (2) 
IPv4 unicast Topology (0x000), no sub-TLVs present 
Padding (255) 
Padding (255) 
padding (255) 
Padding (255) 
Padding (255) 
padding (153) 

















其 中 对 通用 报头 中 主要 字段 的 解释 如 下 。 

。 域内 路 由 协议 鉴别 符 : IS-IS 的 网 络 层 标识 ， 值 为 0x83。 

。 头 长 度 : 数据 包 报 头 的 字 节 数 。 

e 版 本 或 协议 号 扩展 名 : 当前 设置 为 1。 

e System-ID 长 度 : 标识 源 路 由 器 的 System-ID 长 度 ， 值 为 0 表示 长 度 为 6Byte， 
值 为 255 表示 长 度 为 0Byte。System-ID 长 度 的 范围 为 1 一 8Byte， 华 为 的 VRP 
系统 使 用 6Byte。 

。 ”PDU 类 型 表示 IS-IS 报 文 类 型 ，IS-IS 有 3 种 数据 包 : Hello、LSP〈 链 路 状态 
数据 包 )、SNP (序列 号 报 文 ;， 其 中 ，SNP 包括 PSNP〈 部 分 序列 号 报 文 ) 和 
CSNP〔 完 全 序列 号 报 文 )。 

e 版本: 当前 值 为 1。 

。 ” 预 留 位 : 没有 使 用 的 比特 位 ， 值 为 0。 

e。 最 多 区 域 地 址 数 : 支持 的 最 多 区 域 地 址 数量 ， 值 为 0 表示 最 多 支持 的 区 域 地 址 
数量 为 3。 

专用 报头 会 在 介绍 IS-IS 具体 每 种 报 文 结构 时 再 详细 说 明 。 除 了 专用 报头 ,每 种 IS-IS 

报 文 仅 支 持 特定 的 TLV 字段 ， 这 些 TLV 字段 在 数据 包 中 是 可 选 的 ，IS-IS 协议 正 因为 起 
初 是 基于 TLV 设计 的 ， 所 以 很 方便 日 后 的 功能 扩展 ， 表 4-1 中 包括 了 一 些 常用 的 TLV 
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字段 及 功能 介绍 。 
表 4-1 









功能 





Area address (区域 地 址 ) | “1 “| 携带 源 路 由 器 的 区 域 地 址 。 ”| IEH、LSP 

IS Neighbors (1S-IS 邻居 ) 标识 邻居 路 由 器 和 伪 节点 LSP 

IS Neighbors (mac 地 址 ) | 6 | 标识 邻居 路 由 器 的 mac 地 址 。 | LAN IIH 

IS Neighbors (System-id) 标识 邻居 路 由 器 的 System-id P2P IIH 
Authentication 〈 认 证 信息 ) | 10 “| 报 文 的 认证 信息 。 | IIH、LSP、SNP 
IP Areachability (IP 可 达 性 信息 ) 描述 域内 部 路 由 LSP 


描述 支持 的 上 层 协 议 (IP 或 
CLNP) 


Protocols Supported (支持 的 协议 ) 129 IIH、LSP 








IP Areachability (IP 可 达 性 信息 ) 130 “| 描述 域外 路 由 L2 LSP 


描述 启用 了 IS-IS 进程 的 接口 了 
IP interface addresses(IP 接口 地 址 ) 地 址 信息 IIH、LSP 


更 多 关于 TLYV 的 信息 会 在 介绍 IS-IS 每 种 报 文 时 说 明 。 
4.1.4 IS-IS 区 域 及 路 由 器 角色 


为 支持 大 规模 网 络 ，IS-IS 跟 OSPF 一 样 ， 可 以 将 网 络 分 层 。IS-IS 也 支持 2 层 的 分 
层 体系 (Level-1，Level-2)，Level-1 为 普通 区 域 (L1)，Level-2 为 骨干 区 域 (L2)，Level 
区 域 由 LI1 或 LL2 路 由 器 构成 ，Level-2 区 域 由 所 有 的 L2 或 L1/2 路 由 器 构成 , 图 4-3 显 
示 了 一 个 运行 IS-IS 的 网 络 结构 。 





一 一 一 一 ~ i es 
i ~ A Wa sot 
~” ~ i i 


沪 ~ 
x SS 
// Area47.0002 “一 、 J” ~、Area 47.0004~、\ 
1 Ee ’ \ 六 、\ 





图 4-3 IS-IS 网 络 结构 


在 图 4-3 中 ，Area 47.0001 中 所 有 L2 路 由 器 及 其 他 普通 区 域 的 L1/2 路 由 器 一 起 组 
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成 了 Level-2 区 域 。 与 Level-2 区 域 相连 的 四 个 其 他 Area 都 是 Level-1 区 域 ，Level-1 区 
域内 包含 了 L1 路 由 器 和 L1/2 路 由 器 (区 域 边界 )， 这 四 个 Level-1 区 域 需要 通过 Area 
47.0001 相互 通信 。 网络 整体 结构 上 是 以 骨干 区 域 为 中 心 的 , 其 他 普通 区 域 都 是 以 骨干 区 
域 为 核心 来 建设 的 星 型 结构 。 
由 图 4-3 还 可 以 看 出 ，IS-IS 的 区 域 层次 结构 虽然 和 OSPF 是 一 样 的 ， 但 是 它们 定义 
区 域 的 边界 的 方法 是 不 同 的 ，OSPF 区 域 的 边界 是 通过 路 由 器 来 划分 的 ， 一 台 路 由 器 的 
所 有 接口 可 以 划分 到 不 同 的 区 域 〈 比 如 ABR)， 如 图 4-4 所 示 ; 然而 ， 根 据 图 4-4 可 知 ， 
一 台 IS-IS 路 由 器 的 所 有 接口 都 属于 同一 个 区 域 ， 导 臻 区 域 的 边界 是 在 链 路 上 ， 而 不 是 
在 路 由 器 上 。IS-IS 的 骨干 区 域 根据 逻辑 上 的 范围 来 定 界 〈 所 有 具备 Level-2 数据 库 的 路 
由 器 )， 而 OSPF 的 骨干 区 域 可 根据 物理 范围 定 界 。 





图 4-4 OSPF 区域 的 边界 


IS-IS 路 由 器 有 L1、L2 和 L1/2 三 种 角色 ， 华 为 路 由 器 默认 情况 下 是 L1/2。 三 种 路 
由 器 的 特点 如 下 。 
1. Ll 路 由 器 的 特点 
只 有 本 区 域 (L1 区 域 ) 的 链 路 状态 信息 。 
默认 情况 下 ， 只 能 通过 离 自 己 最 近 的 L1/2 路 由 器 访问 其 他 区 域 。 
通过 接收 到 带 有 ATT 位 的 LSP 来 生成 一 条 指向 离 自 己 最 近 的 L1/2 路 由 器 的 默 
认 路 由 ， 用 于 访问 其 他 区 域 。 
L2 路 由 器 的 特点 
拥有 骨干 区 域 〈L2 区 域 ) 的 链 路 状态 数据 库 信 息 。 
跟 其 他 L2 或 L1/2 路 由 器 一 起 构成 骨干 区 域 。 
拥有 整个 路 由 域 的 路 由 信息 。 
L1/2 路 由 器 的 特点 
连接 了 骨干 区 域 和 普通 区 域 ， 相 当 于 OSPF 的 ABR， 必 须 维护 两 张 链 路 状态 数 
据 库 (Ll1 和 L2)。 
e 与 其 他 的 L2 或 L1/2 路 由 器 构成 骨干 区 域 。 
。 会 在 自己 生成 的 L1 的 LSP 中 设置 ATT 位 。 


ee ©® @ 避 
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e 拥有 整个 路 由 域 的 路 由 信息 。 
L1 路 由 器 可 以 和 同一 区 域 的 其 他 Ll1、L1/2 路 由 器 建立 L1 的 邻接 关系 ， 所 有 的 L1 
邻接 关系 构成 了 一 个 Ll 区域 ,如 图 4-5 所 示 ， 在 Area 47.0001 中 ，R2 与 同 区 域 中 的 R1 
(L1 路 由 器 ) 和 R3 (L1/2 路 由 器 〉 形 成 了 LIl 邻接 关系 。 


a a de ms 


i 


图 4-5 IS-IS L1 邻接 


L2 路 由 器 可 以 跟 同 区 域 的 L2 和 L1/2 路 由 器 建立 L2 邻接 关系 ， 也 可 以 和 其 他 区 域 
的 L1/2 路 由 器 建立 L2 邻接 关系 , 如 图 4-6 所 示 , 在 Area 47.0001 中 , R2 分 别 与 R1(L1/2 
路 由 器 ) 和 R3 (L2 路 由 器 ) 形成 了 L2 邻接 关系 ; 并 且 ，R2 跟 Area 47.0002 的 R4 (L1/2 
路 由 器 ) 也 形成 了 工 2 的 邻居 关系 。 





\、RILI2 R212 R312 ” 
~ Ed 
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图 4-6 ”IS-IS L2 邻接 关系 


由 前 面 的 内 容 可 知 ，L1 或 L2 路 由 器 都 只 能 建立 相应 层级 的 邻接 关系 ， 只 维护 一 张 
链 路 状态 数据 库 ， 而 作为 L1/2 路 由 器 ， 需 要 维护 两 张 数据 库 (L1 和 L2)， 也 就 是 说 它 
既 要 建立 Ll 邻接 关系 ,也 要 建立 L2 邻接 关系 。 所 以 , L1/2 路 由 器 虽然 位 于 Ll 区 域内 ， 
但 它 能 建立 两 种 邻接 关系 。 

在 同一 区 域内 ，L1/2 路 由 器 既 能 跟 L1 路 由 器 建立 Ll 邻接 关系 ， 也 能 和 L2 或 L1/2 
路 由 器 建立 L2 邻接 关系 ; 在 不 同 区 域 间 ，L1/2 路 由 器 可 跟 其 他 区 域 的 L2 建立 L2 邻接 
关系 。L1/2 共 维 护 了 两 张 链 路 状态 数据 库 ， 用 于 在 不 同 区 域 间 交换 路 由 信息 ， 如 图 4-7 
所 示 ， 在 Area 47.0001 中 ，R1 与 R2 (L1 路 由 器 )、R3 (L2 路 由 器 )、R4 (LI1/2 路 由 器 ) 
都 形成 了 L1l 的 邻接 关系 ， 值 得 注意 的 是 ，R1 与 R4 同时 也 形成 了 L2 邻居 关系 。 不 同 区 
域 之 间 ，R1 分 别 与 Area 47.0002 的 R5(L1/2 路 由 器 ) 和 Area 47.0003 的 R6 (L2 路 由 
器 ) 形成 了 L2 邻接 关系 。 
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图 4-7 IS-IS LI 和 L2 邻接 关系 


4.1.5 ”IS-IS 网 络 类 型 


相 比 于 OSPF 支持 的 四 种 网 络 类 型 ，IS-IS 仅 支 持 两 种 网 络 类 型 : 

熏 广播 网 络 ; 

e  P2P 网 络 。 

默认 情况 下 ， 物 理 介质 如 果 是 以 太 网 链 路 ， 对 应 的 IS-IS 网 络 类 型 为 广播 网 络 ; 物 
理 介 质 如 果 是 串 行 链 路 (比如 PPP、HDLC)， 对 应 的 IS-IS 网 络 类 型 为 P2P 网 络 。IS-IS 
协议 在 这 两 种 网 络 下 的 工作 机 制 不 一 样 ， 例 如 : 广播 网 络 中 有 选举 DIS， 而 P2P 网 络 中 
不 用 选举 (关于 DIS 的 内 容 下 一 节 会 介绍 )， 此 外 ， 两 种 网 络 的 链 路 状态 数据 库 的 同步 
过 程 也 有 些 区别 ( 链 路 状态 数据 库 的 同步 过 程 在 第 3 章 介 绍 )。 对 于 NBMA 网 络 〈 比 如 
ATM， 帧 中 继 )， 需 要 配置 子 接口 ， 并 且 是 点 对 点 的 子 接口 才能 支持 IS-IS 协议 ，IS-IS 
协议 是 不 支持 点 对 多 点 子 接口 的 。 


4.2 1S-IS 邻接 关系 


4.2.1 ”握手 报 文 


路 由 器 的 接口 一 旦 启动 IS-IS 进程 ， 就 会 发 出 Hello 报 文 , 用 以 发 现 邻 居 并 形成 邻接 
关系 。Hello 报 文 中 除了 包含 发 送 路 由 器 的 System-ID 之 外 ,还 包含 了 发 送 端 全 局 和 接口 
的 一 系列 参数 ， 这 些 参数 如 果 被 邻居 路 由 器 接受 了 ， 那 么 就 能 形成 邻接 关系 ， 否 则 不 建 
立 邻接 关系 。 

在 LAN (广播 网 络 ) 和 P2P《〈 点 对 点 网 络 ) 中 形成 邻接 关系 的 过 程 稍 有 不 同 ， 使 用 
的 Hello 报 文 也 有 些 区 别 ， 下 面 是 三 种 IIH: 

e 点 到 点 IH: 用 于 点 到 点 网 络 ; 

。 Ll LAN IIH: 用 于 广播 网 络 Level-1 邻接 ; 

。 L2 LAN IIH: 用 于 广播 网 络 Level-2 邻接 。 

和 所 有 的 IS-IS 报 文 一 样 ，Hello 报 文 由 报头 和 TLYV 构成 ，LAN Hello 和 P2P Hello 
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携带 的 信息 及 TLV 略 有 不 同 ， 下 图 显示 了 LAN 中 Hello 报 文 格式 。 
如 图 4-8 所 示 ，LAN Hello 报 文 各 字段 解释 如 下 。 


由 IEEE 802.3 Ethernet 
由 Logical-Link Control 





Intra Domain Routing Protocol Discriminator: ISIS (Ox83) 
PDU Header Length: 27 
Version (==1): 1 
System ID Length: 6 
PDU Type : L1 HELLO (R:000) ISIS Header 
Version2 (==1): 1 
Reserved (==0): 0 
Max.AREAS: (0==3): 3 
日 ISIS HELLO 
Circuit type : Level 1 only, reserved(0x00 == 0) 
System-ID {Sender of PDU} : 0000.0000.0001 
Holding timer: 30 
PDU length: 1497 
Priority 
-ID 
Area address(es) (2) 
IS Neighbor (s) (6) 






















Hello Header 








: 64, reserved(O0x00 == 0) | 
。 2.01 








IS Neighbor: HuaweiTe_c3:78:57 
IP Interface address(es) (4) 
IPVv4 interface address: 10.1.1.1 (10.1.1.1) 
Protocols supported (1) TLV 
NLPID(S): IP (Oxcc) 
Restart signaling (3) 
Multi Topology (2) 
IPVv4 unicast Topology (Ox000), no sub-TLVs present 
padding (255) 
Padding (255) 
Padding (255) 
Padding (255) 
padding (255) 
Padding (153) 


回 因 四 外 加 图 


4-8 LAN Hello 报 文 


e Circuit Type〈 接 口 类 型 ): 标识 发 送 端 接口 的 层次 。 

。 System-ID (系统 ID): 标识 发 送 端 路 由 器 的 系统 ID。 

。 ”Holding Timer 〈 保 持 计 时 器 ): 表示 发 送 端 路 由 器 宣告 邻接 关系 失效 的 超时 时 间 ， 
默认 是 发 送 Hello 间隔 时 间 的 3 倍 。 

。 PDU Length〈 报 文 长 度 ): 表示 整个 IS-IS 报 文 的 长 度 。 

。 Priotity〈 优 先 级 ): 表示 发 送 端 接口 的 优先 级 ， 用 来 在 LAN 中 选举 DIS， 默 认 
值 =64。 

e System-ID {DIS}: 标识 了 发 送 端 接口 对 应 的 链 路 上 的 DIS 的 系统 ID。 

e Area Address “区域 地 址 ):， 标识 了 发 送 端 路 由 器 的 区 域 ， 使 用 类 型 1 的 TLV。 

e。 IS Neighbor〈 邻 居 列 表 ): 标识 了 发 送 端 路 由 器 的 邻居 ， 使 用 类 型 6 的 TLV。 

e JP Interface Address (es)( 接 口 卫 地 址 ): 标识 了 发 送 端 路 由 器 所 有 已 经 启动 了 
IS-IS 进程 的 接口 耻 地 址 ， 使 用 类 型 为 132 的 TLV。 

e ”Protocols Supported (支持 的 协议 ); 表示 发 送 端 路 由 器 所 文 持 的 网 络 层 协议 ， 
使 用 类 型 129 的 TLV。 

e ”Restart Signaling (重启 信 令 ): 表示 发 送 端 路 由 器 是 否 支持 GR。 

e ”Multi Topology (多 拓扑 ): 表示 发 送 端 路 由 器 是 否 支 持 多 拓扑 。 
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。 Padding( 填 充 ): 填充 字段 ， 用 于 将 Hello 包 填 充 至 MTU 大小， 使 用 类 型 8 的 


TIV; 
IS-IS 在 点 对 点 网 络 中 使 用 的 Hello 和 LAN 有 些 区 别 ,下 图 显示 了 点 对 点 网 络 中 Hello 
报 文 的 格式 。 
B Point-to-Point Protocol 
Address: Oxff 


Control: Ox03 
Protocol: 05T (0x0023) 
器 ISO 10589 ISIS YINTRA Domain Routreing Information Exchange Prorocol 





PDOU Header Length: 20 

Version (==1); 1 

System ID Length: 6 

PDU Type : P2P HELLO (R:000) ISIS Header 
Version2 (==1): 1 


Area rr CD): 49 
GB IP InNterface address(es) (4) 
IPv4 interface address: 13.1.1.3 (13.1.1.3) 
S Protrocols Supported (1) 
NLPID(S): IP (OxcC) 
Restart Option (3) 
S Point-to-point Adjacency State (15) 
Adjacency State: Up 
Extended Local circuit ID: Ox00000002 
Neighbor systemI0: 0000.0000.0001 
Neighbor Extended Local circuit ID: Ox00000002 
GB Multi Topology (2) 
TYpv4 unicast Topology (0x000), ro sub-TLVs present 


图 4-9”P2P Hello 报 文 


通过 对 比 LAN 和 P2P 网 络 的 Hello 报 文 , 可 以 发 现 , P2P Hello 报头 中 没有 Priority 
和 System-ID {DIS} 这 两 个 字段 ， 原 因 是 P2P 网 络 中 不 需要 DIS; 同时 P2P Hello 报头 
中 新 增 了 一 个 Local Circuit ID (本 地 电路 ID ) 字段， 用 来 标识 发 送 端 接口 。 此 外 ， 在 
TLV 字段 中 ，P2P Hello 携带 了 一 个 点 对 点 邻接 状态 : Point-to-point Adjacency State， 这 
个 字段 携带 了 发 送 端 路 由 器 所 有 邻居 System-ID 及 其 邻接 状态 ， 用 来 保证 建立 邻接 关系 
的 可 靠 性 ， 使 用 类 型 240 的 TLV 来 承载 信息 ; 在 LAN Hello 报 文 中 ， 等 价 的 字段 是 IS 
Neighbor 字段 ， 这 个 字段 只 表明 了 发 送 端 路 由 器 的 所 有 邻居 MAC 地 址 。 

不 管 在 哪 一 种 网 络 中 ，Hello 报 文 都 是 周期 性 发 送 的 ,用 于 维持 邻接 关系 。 如 果 等 待 
时 间 到 达 时 还 没收 到 邻居 的 Hello， 就 宣告 邻接 关系 失效 。 默 认 发 送 Hello 的 时 间 间 隔 为 
10s， 领 接 关 系 的 超时 时 间 (Hold-timer) 是 Hello 间隔 的 3 倍 。 但 是 在 广播 链 路 上 ，DIS 
发 送 Hello 的 频率 是 普通 路 由 器 的 1/3 倍 ( 每 3.3333 秒 发 送 一 次 Hello)。 接 口 下 可 以 修 
改 Hello 间隔 时 间 及 超时 时 间 。 


4.2.2 ”邻接 关系 的 建立 


IS-IS 协议 作为 一 种 链 路 状态 路 由 协议 , 每 台 路 由 器 都 会 生成 LSP, 然后 将 其 泛 洪 到 
网 络 中 , 所 有 路 由 器 都 会 将 LSP( 本 地 和 其 他 路 由 器 通告 的 ) 存 放 至 LSDB, 再 基于 LSDB 
利用 SPF 算法 计算 出 最 优 路 由 。 泛 洪 LSP 之 前 需要 跟 相 邻 路 由 器 形成 邻接 关系 。 只 有 邻 
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接 关系 形成 后 ，LSP 才能 在 相 邻 路 由 器 之 间 互 相交 换 ， 进 而 更 新 自己 的 LSDB。 

对 于 Ll 和 L2 的 路 由 器 ，IS-IS 协议 可 以 形成 不 同 层 次 的 邻接 关系 ， 详 细 内 容 可 以 
复习 一 下 4.1.4 小 节 的 内 容 。 这 里 只 需要 注意 ， 一 台 L1 路 由 器 是 不 能 和 L2 路 由 器 建立 
邻接 关系 的 。 影 响 两 台 IS-IS 路 由 器 建立 邻接 关系 的 因素 有 两 方面 。 

一 方面 是 从 路 由 器 层次 和 区 域 ID 上 考虑 ， 要 建立 邻接 关系 必须 满足 以 下 条 件 〈 这 
里 其 实 是 对 4.1.4 小 节 内 容 的 总 结 )。 

. 台 Ll 路 由 器 必须 在 同一 区 域 才能 建立 邻接 关系 。 

台 L2 路 由 器 建立 L2 邻接 关系 不 要 求 在 同一 区 域 。 
一 台 Ll 路 由 器 和 一 台 L1/2 路 由 器 在 相同 区 域 时 才能 形成 L1 邻接 关系 。 
一 台 L2 路 由 器 和 一 台 L1/2 路 由 器 不 管 是 同 区 域 还 是 不 同 区 域 ， 都 能 形成 L2 
邻接 关系 。 

e 两 台 LIL/2 路 由 器 ， 同 区 域内 可 形成 LI 和 L2 邻接 关系 ， 不 同 区 域 只 能 形成 L2 

邻接 关系 。 
从 其 他 因素 考虑 ， 有 以 下 条 件 需 要 满足 。 
。 链 路 两 端的 IS-IS 接口 的 网 络 类 型 必须 一 样 。 
e ”华为 还 要 求 链 路 两 端的 IP 地 址 位 于 同一 个 子 网 。 
。 JIS-IS 要 求 整 个 域内 路 由 器 使 用 的 System-Id 长 度 必须 一 致 ， 在 华为 的 实现 中 ， 
System-Id 长 度 固 定 使 用 6Byte; 该 规则 用 于 P2P 邻接 。 

。 两 台 路 由 器 使 用 的 最 大 区 域 地 址 数 要 相同 ， 华 为 默认 支持 最 大 区 域 地 址 数 是 3; 
该 规则 用 于 P2P 邻接 。 

。 如果 配置 了 认证 ， 要 求 两 台 路 由 器 的 认证 信息 要 一 致 〈《 认 证 类 型 和 密 钥 信息 )。 

。 要求 链 路 两 端的 接口 MTU 值 要 一 致 ， 在 华为 的 实现 中 ， 不 管 是 P2P 链 路 还 是 
广播 链 路 , 发 送 的 Hello 都 是 填充 至 接口 MTU 大 小 , 用 以 检查 链 路 两 端的 接口 
MTU。 

了 解 了 IS-IS 协议 建立 邻接 关系 的 条 件 后 ， 再 来 看 一 下 邻接 关系 的 建立 过 程 。OSPF 
建立 邻接 关系 的 过 程 是 比较 复杂 的 ， 状 态 机 比较 多 ; 而 IS-IS 的 邻接 关系 建立 过 程 相对 
简单 ， 下 面 讲 解 一 下 IS-IS 分 别 在 P2P 网 络 和 广播 网 络 中 的 邻接 关系 建立 过 程 。 

4.2.2.1 广播 网 络 的 邻接 关系 建立 

在 广播 网 络 中 ，IS-IS 使 用 LAN IIH 来 建立 邻接 关系 ，L1 的 LAN IIH 发 送 到 组 播 
地 地 址 : 01-80-c2-00-00-14，L2 的 LAN IIH 发 送 到 组 播 地 址 : 01-80-c2-00-00-15。 当 路 
由 器 发 送 Hello 报 文 时 ， 它 会 根据 接口 的 层级 决定 发 送出 的 是 L1 的 Hello 还 是 L2 的 
Hello。 接 口 的 层级 可 以 在 接口 下 配置 ， 跟 全 局 的 层级 是 没关系 的 ， 接 口 默 认 的 层级 是 
Ell 

当 路 由 器 收 到 Hello 报 文 后 , 检查 跟 发 送 Hello 报 文 的 路 由 器 的 邻接 情况 , 如 果 已 经 
建立 好 邻接 关系 ， 则 在 邻居 表 中 重 置 和 此 邻居 关联 的 保持 定时 器 ;如果 邻接 关系 没有 建 
立 ， 则 通过 发 送 过 来 的 Hello 报 文中 的 参数 决定 是 否 建立 新 的 邻接 关系 。 图 4-10 所 示 为 
在 广播 链 路 上 邻接 关系 的 建立 过 程 。 

图 4-10 所 示 为 L2 路 由 器 在 广播 链 路 上 建立 L2 邻接 关系 的 建立 过 程 ，L1 路 由 器 建 
立 工 1 邻接 关系 的 过 程 与 此 类 似 。 有 具体 过 程 说 明 如 下 。 
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民 
SYS ID 111.1111.1111 SYS ID 2222.2222.2222 
L2 LAN IIH 
(SYS ID:111.1111.1111 neighbor:null) Neighbor R1 
Li2LANIIH initialized 
Neighbor R2 (SYS ID:2222.2222.2222 neighbor: R1) 
established L2 LAN IIH 
(SYS ID:111.1111.1111 neighbor:R2) Neighbor RI 
established 
L2 LAN IIH 
L2 LAN IIH 


图 4-10 广播 链 路 上 邻接 关系 的 建立 过 程 


第 1 步 : R1 的 接口 启动 IS-IS 里 程 后 ， 发 出 L2 LAN IIH， 报 文中 携带 了 自己 的 
System-Id，IS Neighbor 列表 中 没有 任何 邻居 标识 。 

第 2 步 ， R2 接收 到 Hello 报 文 后 ， 将 自己 和 R1 的 邻接 状态 设置 为 初始 化 状态 ， 然 
后 向 R1 回复 自己 的 Hello 报 文 ， 报 文中 携带 了 自己 的 System-ID， 同 时 在 IS Neighbor 
列表 中 携带 了 R1。 

第 3 步 : Rl 接收 到 R2 的 Hello 报 文 后 ， 由 于 在 这 份 Hello 报 文 的 邻居 列表 中 看 到 
了 自己 的 System-ID，R1 将 R2 的 邻接 关系 状态 设置 为 UDP。 然后 在 向 R2 发 送 的 Hello 
报 文中 ， 也 会 将 R2 的 System-ID 放 到 IS Neighbor 邻居 列表 中 。 

第 4 步 : 同 第 3 步 ，R2 接收 到 Hello 报 文 后 ， 也 将 自己 与 R1 的 邻接 关系 状态 设置 
为 UP。 至 此 ， 两 台 路 由 器 的 邻接 关系 建立 完成 。 

为 保证 邻接 关系 建立 的 可 靠 性 , 广播 网 络 中 的 Hello 中 使 用 了 IS Neighbor 这 个 TLV 
(类 型 6)， 路 由 器 如 果 在 接收 到 的 Hello 报 文中 看 到 了 自己 的 System-ID， 那 么 就 宣告 多 
接 关 系 建 立 起 来 了 ， 这 也 叫 “三 次 握手 ” 机制 。“ 三 次 握手 ”机 制 可 以 避免 因 单 通 故障 导 
致 邻居 之 间 一 边 宣 告 邻接 关系 UP 了 ， 另 一 边 还 是 Down 的 状态 。 

因为 是 广播 网 络 ， 所 以 还 得 选举 DIS 。 在 邻接 关系 建立 后 ， 路 由 器 再 等 待 2 个 Hello 
报 文 的 时 间 ， 才 开始 选举 DIS。 选 举 DIS 是 根据 Hello 报 文中 的 Priority 字段 值 ， 优 先 级 
最 大 的 将 成 为 该 广播 链 中 的 DIS， 优 先 级 如 果 都 相同 ， 则 比较 接口 的 MAC 地 址 ， 最 大 
的 MAC 地址 对 应 的 接口 将 成 为 DIS。 有 关 DIS 的 详细 内 容 在 下 一 节 中 介绍 。 

下 面 的 输出 内 容 显 示 了 在 广播 网 络 中 一 台 IS-IS 路 由 器 的 邻居 表 。 


<R1>display isis peer 


Peer information for IS-IS(1) 
System Id Interface Circuit Id State HoldTime Type PRI 
0000.0000.0002 “GE0/0/0 0000.0000.0002.01LUpP 8s LI(CLIL2) 64 
0000.0000.0002 GE0/0/0 0000.0000.0002.01 Up 8s L2(L1L2) 64 


表 中 第 一 列 显示 了 邻居 路 由 器 的 System-ID。 第 二 列表 示 本 地 到 邻居 路 由 器 的 接口 。 
第 三 列 标识 了 邻居 路 由 器 的 电路 ID, 电路 ID 用 于 唯一 标识 一 个 IS-IS 接口 , 如 果 该 接口 
是 和 一 个 广播 网 络 相连 的 ， 那 么 这 个 电路 ID 是 该 广播 网 络 上 的 DIS 设置 的 ， 
0000.0000.0002 是 DIS 的 System-ID，01 表示 伪 节 点 ID， 这 时 电路 ID 也 称 作 LAN ID。 
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第 四 列表 示 邻 接 关 系 状 态 ， 正 常 状 态 为 UP。 第 五 列表 示 对 邻居 的 保持 时 间 ， 如 果 
该 邻居 是 DIS， 那 么 保持 时 间 为 10 秒 。 第 六 列表 示 邻 接 类 型 。 最 后 一 列表 示 邻 居 接 口 的 
DIS 优先 级 。 
4.2.2.2 P2P 网 络 中 邻接 关系 建立 
由 于 当初 在 设计 IS-IS 的 时 候 ， 根 据 ISO10589 的 定义 ， 点 对 点 Hello 报 文 不 包括 IS 
Neighbor TLV〈 类 型 6)， 因 此 ， 在 P2P 网 络 中 无 法 像 广播 网 络 那样 使 用 “三 次 握手 ”机 
制 来 建立 邻接 关系 ， 而 只 能 使 用 “两 次 握手 ”机 制 ， 这 导致 的 后 果 前 面 已 经 说 过 。 直 到 
在 后 来 的 集成 IS-IS 协议 中 才 支 持 通过 “三 次 握手 ”机 制 建立 邻接 关系 。 
P2P 网 络 中 “两 次 握手 ”建立 邻接 关系 的 过 程 如 图 4-11 所 示 。 


RouterA RouterB 


SYSID 1111.1111.1111 SYS ID 2222.2222.2222 


P2P IIH 
Sysid 1111.1111.1111 
Status:up 


P2P IIH 
Sys id 2222.2222.2222 
Status:up 


图 4-11 P2P 网 络 “ 两 次 握手 ”建立 邻接 关系 


图 4-11 中 RouterA 和 RouterB 之 间 通 过 P2P 网 络 互 连 , 它们 之 间 建 立 邻接 关系 的 过 
程 如 下 。 

第 1 步 : RouterA 接口 启动 IS-IS 后 ， 首 先 向 RouterB 发 送 一 份 P2P IIH， 报 文中 扒 
带 了 自己 的 System-Id 和 其 他 信息 ， 但 报 文 并 没有 IS Neighbor 邻居 列表 。 

第 2 步 : RouterB 接收 到 Hello 报 文 后 ， 直 接 将 RouterA 的 邻接 状态 设置 为 UP。 

第 3 步 : 同 第 2 步 ， RouterA 也 在 收 到 RouterB 的 Hello 报 文 后 将 邻接 状态 直接 设置 
为 UP。 

为 支持 在 P2P 网 络 中 使 用 “三 次 握手 ”机 制 建立 邻接 关系 ， 集 成 IS-IS 协议 的 Hello 
报 文 增 加 了 一 个 新 字段 ， 叫 P2P 邻接 状态 〈 也 就 是 类 型 240 的 TLV)， 使 用 该 TLV 携带 
邻居 的 信息 。 考 虑 到 向 后 兼容 性 ， 如 果 一 台 比 较 老 的 路 由 器 不 支持 该 TLV， 接 收 到 后 可 
以 忽略 它 ， 按 照 老 的 方式 一 一 “两 次 握手 ”机 制 建立 邻接 关系 。 华 为 的 实现 是 在 P2P 网 
络 默 认 使 用 “三 次 握手 ”机 制 ， 在 说 邻接 关系 建立 之 前 ， 先 来 了 解 一 下 类 型 240 的 TLV 
包含 的 内 容 : 

。 类型: OxF0; 

。 ”长 度 : 5 一 17Byte; 

。  ” 值 : 1Byte, 表示 邻接 状态 , 一 共有 3 种 状态 , UP (=0), Initializing (=1), Down 

(=2); 

e 扩展 的 本 地 电路 ID: 4Byte， 本 端 对 点 对 点 网 络 接口 的 标识 ; 

@ 邻居 System-ID: 邻居 系统 ID; 

。 邻居 扩展 的 本 地 电路 ID: 0 或 4Byte， 邻 居 端 对 点 对 点 网 络 接口 的 标识 。 
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有 了 类 型 240 的 TLV 后 ， 路 由 器 在 接收 到 的 Hello 报 文中 ， 通 过 确认 Neighbor 
SystemID 字段 是 否 包含 自己 的 System-ID， 从 而 实现 “三 次 握手 ”机 制 。 同 时 ， 本 地 的 
邻接 状态 基于 当前 状态 和 收 到 的 类 型 240 TLV 中 显示 的 邻接 状态 值 进行 设置 。 
图 4-12 显示 了 P2P 网 络 建立 邻居 的 详细 过 程 ， 在 这 里 L1 和 L2 的 邻接 关系 建立 过 
程 是 一 样 的 。 


RouterA RouterB 


SYS ID 0000.0000.0001 SYS ID 0000.0000.0002 


Status:down L12 P2P IIH 
日 Point-to-Point Adjacency state (5) 
Adjacency State: Down 
Extended Local circuit ID: Ox00000001 





Status:Initializing 


L12 P2P TH 
日 Point-to-Point Adjacency state (15) 
Adjacency State: Initializing 
Extended Local circuit ID: Ox00000003 
Neighbor SystemID: 0000.0000.0001 
Neighbor Extended Local circuit ID: 0xX00000001 
Status:up 
L12 P2P TH 
日 Point-to-Point Adjacency state (15) 
Adjacency State: up 
Extended Local circuit ID: 0x00000001 
Neighbor SystemID: 0000.0000.0002 
Neighbor Extended Local circuit ID: Ox 00000003 Status:up 


图 4-12 P2P 网 络 邻 接 关 系 建立 过 程 


由 图 4-12 可 以 观察 到 ， 整 个 建立 过 程 如 下 。 

第 1 步 : RouterA 接口 启动 IS-IS 后 ， 首 先 发 出 邻接 状态 为 Down 的 P2P IIH。 

第 2 步 : RouterB 接收 到 Hello 后 , 根据 里 面 邻接 状态 字段 将 RouterA 邻接 状态 设置 
为 Initializing， 并 在 回复 给 RouterA 的 Hello 报 文中 将 邻接 状态 字段 设置 成 Initializing。 

第 3 步 : RouterA 从 RouterB 接收 到 的 邻接 状态 为 Initializing， 并 且 Neighbor 
SystemID 中 包含 了 自己 ， 立 刻 将 RouterB 的 邻接 状态 设置 为 UP 状态 ， 并 且 在 发 给 
RouterB 的 下 一 Hello 报 文中 ， 将 邻接 状态 字段 设置 为 UP。 

第 4 步 : RouterB 接收 到 RouterA 的 邻接 状态 为 UP 的 Hello 报 文 后 ， 立 刻 将 
RouterA 的 邻接 状态 设置 为 UP。 至 此 ，RouterA 和 RouterB 的 邻接 关系 建立 完成 。 

4.2.2.3 DIS 

正如 上 一 节 所 介绍 的 ，IS-IS 路 由 器 通过 Hello 报 文 建立 邻接 关系 。 两 台 路 由 器 建 
立 完 邻 接 关系 之 后 ， 就 开始 交换 链 路 状态 的 状态 信息 (也 就 是 LSDB 的 同步 )， 交 换 过 
程 是 通过 泛 洪 LSP 来 实现 的 。 为 保障 LSP 泛 洪 的 准确 性 和 及 时 性 ， 要 求 在 拓扑 发 生变 
化 时 ， 立 即 泛 洪 新 的 LSP， 在 网 络 稳定 时 也 要 周期 性 泛 洪 LSP， 这 就 提高 了 带宽 和 处 
理 资 源 开 销 。 

在 广播 型 多 路 访问 网 络 中 , IS-IS 协议 需要 在 所 有 路 由 器 之 间 建 立 邻接 关系 ,网 络 中 
邻接 关系 越 多 ， 为 确保 LSP 泛 洪 的 可 靠 性 而 带 来 的 网 络 资源 开销 就 越 大 。 为 降低 在 多 路 
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访问 网 络 中 邻接 关系 的 复杂 性 , 提高 带宽 利用 率 , IS-IS 协议 将 整个 多 路 访问 网 络 本 身 看 
作 一 台 路 由 器 或 一 个 伪 节 点 (如 图 4-13 所 示 )。IS-IS 协议 在 多 路 访问 网 络 中 需要 DIS ( 指 
定 IS)， 由 DIS 来 抽象 出 并 发 挥 伪 节 点 的 作用 。 有 了 DIS 后 ， 多 路 访问 网 络 中 的 邻居 间 
泛 洪 LSP 后 ， 通 过 DIS 的 SNP《〈 序 列 号 报 文 ) 来 确保 LSP 泛 洪 的 可 靠 。LSP 泛 洪 过 程 
会 在 下 一 章 介 绍 。 





图 4-13 伪 节 点 


在 广播 网 络 中 ， 必 须 有 一 台 路 由 器 被 推举 为 DIS， 而 IS-IS 协议 选举 DIS 的 过 程 非 
常 简单 。 前 文中 有 介绍 ， 在 IS-IS 路 由 器 的 接口 有 L1 和 L2 两 个 层级 ， 每 一 层 都 有 一 个 
优先 级 一 一 L1 优先 级 和 L2 优先 级 ， 网 络 中 需要 为 LI1 和 2 分 别 选举 对 应 的 DIS， 因 为 
在 同一 个 广播 型 多 路 访问 网 络 中 可 能 存在 两 邻接 关系 一 一 Ll1 和 L2， 这 两 种 邻接 关系 下 
的 LSDB 同步 〈 泛 洪 LSP) 过 程 是 相互 独立 的 ， 所 以 必须 要 有 相应 层级 的 DIS。 

在 选举 过 程 中 ， 只 有 邻接 状态 为 UP 的 路 由 器 才 有 资格 参与 选举 。DIS 的 选举 规则 
如 下 。 

。 ”选举 基于 接口 优先 级 ， 优 先 级 最 高 的 当选 DIS 。 

e 如 果 所 有 接口 的 优先 级 一 样 ， 具 有 最 大 的 Subnetwork Point of Attachment 

CSNPA) 的 路 由 器 将 当选 DIS: 

(1) 在 LAN 中 ，SNPA 指 的 是 MAC 地 址 ; 

(2) 在 帧 中 继 网 络 中 ，SNPA 是 Local Data Link Connection Identifier (DLCI)。 

。 如 果 SNPA 是 一 样 的 ， 具 有 最 大 的 System-ID 的 路 由 器 将 当选 为 DIS。 

华为 路 由 器 接口 的 优先 级 的 范围 是 0 一 127， 默 认 的 接口 的 优先 级 是 64， 可 以 通过 
isis dis-priority 命令 修改 接口 的 优先 级 。 与 OSPF 选举 DR 过 程 不 同 的 是 ， 优 先 级 为 0 的 
IS-IS 接口 也 可 以 参与 选举 DIS， 在 OSPF 中 就 不 行 。 

另外 ， 不 论 是 LI 还 是 L2，DIS 在 LSP 泛 洪 过 程 中 都 很 重要 ， 但 是 都 没有 选举 备份 
DIS。 这 样 的 话 ， 当 网 络 中 的 DIS 发 生 故 障 后 不 会 产生 什么 问题 吗 ? 答案 是 不 会 的 ， 原 
因 包括 以 下 两 个 方面 。 

(1) 在 广播 型 多 路 访问 网 络 中 ， 路 由 器 会 跟 其 他 所 有 路 由 器 都 建立 邻接 关系 ， 它 们 
都 会 定期 进行 LSP 的 泛 洪 ， 即 使 DIS 失效 了 ， 也 不 会 影响 其 他 所 有 路 由 器 的 IS-IS 协议 
的 正常 运行 ， 这 样 在 没有 备份 DIS 的 情况 下 不 会 产生 什么 问题 。 

(2) 如 果 当 前 DIS 失效 ,网络 中 其 他 路 由 器 检测 到 该 故障 ,然后 重新 选举 新 的 DIS， 
这 个 过 程 所 花 的 时 间 是 非常 短 的 ， 因 为 DIS 发 送 Hello 报 文 的 频率 是 其 他 路 由 器 的 1/3 
倍 ( 在 前 文中 已 经 提 到 )，DIS 发 送 Hello 报 文 的 间隔 时 间 是 3.3333s， 其 他 路 由 器 检测 
DIS 失效 的 时 间 只 需 10s。 
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对 于 IS-IS 协议 来 说 , 如 果 一 台 优 先 级 高 或 Mac 地 址 高 的 路 由 器 加 入 到 现 有 网 络 中 ， 
那么 这 台新 路 由 器 会 抢占 现 有 DIS 而 成 为 新 的 DIS， 这 一 点 也 与 OSPF 的 DR 不 同 。 在 
OSPF 中 ，DR 和 BDR 都 是 不 允许 被 抢占 的 。IS-IS 协议 这 样 处 理会 对 网 络 的 稳定 性 产生 
影响 吗 ? 如 前 面 所 讲 ， 在 广播 多 路 访问 网 络 中 ， 选 举 出 一 台新 的 DIS， 不 会 对 其 他 路 由 
器 IS-IS 的 正常 运行 产生 影响 ， 只 需要 路 由 器 泛 洪 扩散 一 组 新 的 LSP 出 来 就 可 以 了 。 当 
初 ISO 在 设计 IS-IS 协议 时 ， 为 什么 要 这 样 选择 呢 ? 当时 是 基于 以 下 两 方面 的 考虑 。 

。 向 正在 运行 的 广播 型 网 络 中 添加 路 由 器 的 情况 是 比较 少见 的 ， 由 此 带 来 的 影响 

可 以 忽略 。 

。 现在 的 路 由 器 处 理性 能 很 好 ， 即 使 重新 选举 和 计算 也 是 非常 快 的 。 

IS-IS Ll 和 12 的 DIS 功能 总 结 如 下 。 

e ”模拟 出 伪 节 点 ， 生 成 伪 节 点 的 LSP， 用 来 描述 这 个 网 络 上 有 哪些 路 由 器 。 

e 确保 网 络 中 LSP 泛 洪 的 可 靠 性 (下 一 章 会 介绍 )。 

。 完成 LI 和 L2 的 LSP 扩散 和 路 由 计算 。 

下 面 的 输出 内 容 显 示 了 一 台 IS-IS 路 由 器 的 接口 信息 ， 最 后 一 列 标识 该 接口 是 否 为 





直 连 广播 网 络 中 的 DIS 。 
[RI]jdisplay isis interface 
区 Interface information for IS-IS(1) 
Interface 1d IPv4.State IPv6.State MTU Type DIS 
ee 001 ee 有 1497 L1/L2 Yes/Yes 
001 1500 LU/L2 -- 


由 上 述 输出 信 息 可 知 ， 路 由 器 R1 的 -6 GE0/0/0 接口 在 Ll 和 L2 上 都 是 DIS， 另 外 ， 
Loopback 接口 因为 没有 任何 邻接 ， 因 此 不 用 选举 DIS (在 P2P 网 络 中 也 无 需 选 举 DIS)。 

下 面 的 输出 内 容 显 示 了 一 台 IS-IS 路 由 器 的 邻居 表 , 这 台 路 由 器 是 一 台 L1/2 路 由 器 ， 
并 且 通 过 它 的 GE0/0/0 接口 层 跟 网 络 中 的 其 他 两 台 路 由 器 建立 了 LI1 和 L2 的 邻接 关系 。 


[Rl1ldisplay isis peer 

Peer information for IS-IS(1) 

System Id Interface Circuit Id State HoldTime Type PRI 
0000.0000.0004 GE0/0/0 0000.0000.0001.01 Up 23s LI1(L1L2) 64 
“0000.0000.0002 ”GE0/0/0 0000.0000.0001.01 Up 21s ~ LI1(L1L2)64 
0000.0000.0004 ”GE0/0/0 0000.0000.0001.01 Up ”22s L2(L1L2) 64 

0000.0000.0002 GE0/010 0000.0000.0001.01 Up ”22s L2(LIL2) 64 


由 上 面 的 输出 内 容 可 看 到 ,R1 路 由 器 接口 GE0/0/0 所 连接 的 网 络 中 包括 三 台 路 由 器 ， 
它 与 另 两 台 路 由 器 (System-ID 分 别 是 0000.0000.0002、0000.0000.0004) 建立 了 Ll 和 
L2 的 邻接 关系 , 第 3 列 标识 了 该 网 络 中 伪 节 点 的 电路 ID, 也 叫 LAN ID; LAN ID 是 DIS 
用 来 区 分 不 同 局 域 网 的 标识 符 ， 因 为 一 台 路 由 器 可 能 同时 作为 多 个 局 域 网 的 DIS， 为 了 
区 分 不 同 局 域 网 ，DIS 为 每 个 局 域 网 分 配 一 个 唯一 的 LAN ID。 

4.2.2.4 ”邻接 关系 故障 及 排除 案例 

IS-IS 邻接 关系 故障 是 最 常见 的 IS-IS 网 络 故 障 ， 本 章 4.2.2 节 中 介绍 了 IS-IS 协议 建 
立 邻 接 关 系 必须 满足 的 条 件 ， 导 致 IS-IS 邻接 关系 故障 的 原因 中 除了 这 些 条 件 没有 符合 
之 外 ， 还 有 一 些 其 他 原因 ， 比 如 路 由 器 软件 或 硬件 故障 、 配 置 错 误 、 不 同 厂 家 的 路 由 器 
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的 协商 兼容 性 问题 等 。 本 节 介 绍 几 个 常见 的 IS-IS 邻接 关系 故障 及 其 针对 这 些 故 障 的 诊 
断 和 排除 方法 。 
4.2.2.4.1 案例 1: 邻居 不 在 同一 网 段 
如 图 4-14 所 示 ， 区 域 49.0001 的 R1 与 区 域 49.0002 的 R2 建立 连接 ，R1 是 L1/2 路 
由 器 ，R2 是 L2 路 由 器 ，1.1.1.0/24 是 R1 的 一 个 直 连 网 段 并 已 经 宣告 到 区 域 49.0001。 现 
在 用 户 反映 R2 无 法 访问 网 络 1.1.1.0/24。 


Area 49.0001 Area 49.0002 





图 4-14 案例 1 组 网 图 


经 检查 ， 路 由 器 的 软件 、 硬 件 工 作 都 正常 ， 物 理 链 路 也 没 问题 ，R1 和 R2 的 IS-IS 
基本 配置 都 没有 问题 , 但 是 R1 和 R2 的 邻接 关系 还 是 无 法 建立 , 此 时 在 R2 上 利用 debug 
命令 显示 了 以 下 的 输出 信息 。 


<R2>debug isis adjacency 
Oct 28 2015 15:42:05.977.1-08:00 R2 IS-IS/6/IS-IS: 
1S-IS-1-ADJ: Rxed Lan L2 Hello on GE0/0/0, from SNPA O00e0.fcf2.4727.(IS15_1864) 


Oct 28 2015 15:42:05.977.2-08:00 R2 IS-IS/6/IS-IS: 
IS-IS-1-ADJ: Rxed Lan IIH contains No usable Ip Address. IIH Ignored.(IS15 2131) 


Oct 28 2015 15:42:05.977.3-08:00 R2 IS-IS/6/18-IS: 

IS-IS-1-ADJ: Hello PDU Dropped.(1S21 5266) 

错误 信息 “IS-IS-1-ADJ: Rxed Lan IIH contains No usable Ip Address. IIH Ignored. 
(IS15 2131)” 表 明了 R2 因 接 收 到 的 Hello 消息 的 源 IP 地 址 不 合法 而 被 忽略 了 该 Hello 
消息 。 通 过 查看 R1 和 R2 接口 的 I 了 P 地 址 ， 发 现 两 者 的 接口 IP 地 址 不 在 同一 个 子 网 。 修 
改 完 IP 地 址 后 两 台 路 由 器 邻接 关系 建立 正常 ，R2 也 学 习 到 了 路 由 ， 故 障 解决 。 





[R2]display is-is peer 
Peer information for IS-IS(1) 

System Id Interface Circuit Id State HoldTime Type PRI 
0000.0000.0001 GE0/0/0 0000.0000.0001.01 Up 7s 1L2 64 
[R2]display ip routing-table protocol isis 
IS-IS routing table status : <Active> 

Destinations : 1 Routes: 1 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
1.1.1.0/24 CIS-IS-L1 15 Om 16 GigabitEthernet0/0/0 


故障 总 结 : 华为 设备 在 建立 IS-IS 邻接 关系 时 ， 要 求 链 路 两 端的 IP 地 址 处 在 同一 网 
段 ; 如 果 是 在 点 对 点 链 路 上 ， 可 以 通过 配置 让 设备 忽略 对 Hello 报 文 源 IP 地 址 的 检查 。 

4.2.2.4.2 ”案例 2: 邻居 的 区 域 ID 错误 

如 图 4-15 所 示 , R1、R2 和 R3 都 位 于 区 域 49.0001 内 ,并 且 都 是 Ll 路 由 器 , 1.1.1.0/24 
作为 R1 的 直 连 网 络 已 经 被 宣告 进 区 域 49.0001 中 ， 用 户 现 在 反映 R3 无 法 访问 到 网 络 
1.1.1.0/24。 
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Area 49.0001 GO/0/0 





图 4-15 案例 2 组 网 图 


经 检查 ， 路 由 器 软件 、 硬 件 及 物理 连接 都 没有 问题 并且 设备 之 间 IP 地 址 配置 也 在 
同 个 网 段 ， 基 本 连通 性 没 问 题 。 下 表 显 示 了 R1 的 IS-IS 领 接 关 系 表 ， 可 以 发 现 ，R1 此 
时 仅 和 R2 建立 了 Ll 的 邻接 关系 ， 并 且 可 以 看 到 R2 上 跟 R1 同样 的 区 域 地 址 49.0001。 


<R1>display isis peer Verbose 

Peer information for IS-IS(1) 
System Id Interface Circuit Id State HoldTime Type PRI 
0000.0000.0002 GE0/0/0 0000.0000.0001.01 Up 29s Ll 64 


MT IDs supported :0(UP) 

Local MT IDs :0 

Area Address(es) :49,0001 
Peer IP Address(es) :172.16.12.2 


Uptime :00:14:27 

Adj Protocol- :IPv4 

RestRt Capable :YES 

Suppressed Adj :NO 

Peer System Id : 0000.0000.0002 
Total Peer(s): 1 


既然 R1、R2 和 R3 都 是 L1 路 由 器 ， 那 么 它们 只 能 在 同 个 区 域 中 建立 L1 的 邻接 关 
系 ， 初 步 怀疑 R3 的 区 域 地 址 配置 错误 ， 在 R3 上 使 用 debug 命令 后 输出 以 下 信息 。 


<R3>debug isis adjacency 
Oct 28 2015 16:27:02.397.1-08:00 R3 IS-IS/6/IS-IS; 
1S-IS-1-ADJ: Rxed Lan LI Hello on GE0/0/0, from SNPA O00e0.fcf2.4727.(IS15_1864) 


Oct 28 2015 16:27:02.397.2-08:00 R3 IS-IS/6/IS:IS: 
IS-IS-1-ADJ: Area Mismatch.Lan L1 Hello from 0000.0000.0001, on GE0/0/0.(IS01 23 
83) 


Oct 28 2015 16:27:02.397.3-08:00 R3 IS-IS/6/IS-IS: 
IS-IS-1-ADJ: Hello PDU Dropped.(IS21 5266) 


Oct 28 2015 16:27:03.657.1-08:00 R3 IS-IS/6/IS-IS: 
IS-IS-1-ADJ: Rxed Lan LI Hello on GE0/0/0, from SNPA 00e0.fe0d.36b5.(IS15_1864) 


Oct 28 2015 16:27:03.657.2-08:00 R3 IS-IS/6/IS-IS: 
IS-IS-1-ADJ: Area Mismatch.Lan L1 Hello from 0000.0000.0002, on GE0/0/0.(IS01_23 
83) 


Oct 28 2015 16:27:00.657.3-08:00 R3 IS-IS/6/IS-IS: 
IS-IS-1-ADJ: Hello PDU Dropped.(IS21_5266) 
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其 中 ， 错 误 信 息 “IS-IS-1-ADJ: Area Mismatch.Lan L1 Hello from 0000.0000.000x， 
on GE0/0/0. (IS01_2383)” 表 示 R3 接收 到 Rl1 和 R2 的 Hello 报 文 后， 发 现 Rl1 和 R2 的 
区 域 地 址 跟 自己 的 不 匹配 ， 导 致 Hello 包 被 丢弃 。 经 检查 发 现 R3 的 区 域 地 址 配置 成 了 
49.0002， 将 其 修改 成 49.0001 后 ，R3 与 R1、R2 正常 建立 了 IS-IS 邻接 关系 ， 也 学 习 到 
了 网 络 1.1.1.0 路 由 ， 故 障 得 以 解决 。 


[R3]display isis peer 

Peer information for IS-IS(1) 
System Id Interface Circuit Id State HoldTime Type PRI 
0000.0000.0002 GE0/0/0 -— Up 30s Ll 64 
0000.0000.0001 GE0/0/0 -一 Up 8s Ll 64 


[R3]display ip routing-table protocol is-is 
Route Flags: R-relay, D-download to fib 


Public routing table : IS-IS 


Destinations : 5 Routes :5 
IS-IS routing table status : <Active> 
Destinations : 5 Routes :5 


Destination/Mask Proto Pre Cost Flags NextHop Interface 
0,0.0.0/0 IS-IS-L1 15 10 及 en ys a pl GigabitEthernet0/0/0 
1.1.1.0/24 IS-IS-L115 10 D172,16,12.1 GigabitEthemet00/0/0 


故障 总 结 : 两 台 IS-IS 路 由 器 要 建立 L1 的 邻接 关系 ， 必 须要 求 路 由 器 的 层次 相同 ， 
并 且 区 域 地 址 也 要 相同 。 

4.2.2.4.3 ”案例 3: 邻居 的 Level 不 同 

如 图 4-16 所 示 ， 在 上 个 案例 的 基础 上 ， 用 户 新 增加 了 一 台 路 由 器 R4 并 且 配 置 为 区 
域 49.0002，R4 路 由 配置 为 L2 路 由 器 ， 用 户 反映 说 网 络 基 本 配置 和 JIS-IS 协议 配置 完成 
后 ，R4 还 是 无 法 访问 到 网 络 1.1.1.0/24。 









Area 49.0001 





GO/0/0 





Area 49.0002 


图 4-16 案例 3 组 网 图 


通过 上 个 案例 ,我 们 已 经 清楚 了 R1 和 了 R2 之 间 的 IS-IS 邻接 关系 是 没有 任何 问题 的 ， 
所 以 这 时 查看 R2 的 路 由 表 可 以 发 现 1.1.1.0/24 的 路 由 。 

<R2>display ip routing-table protocol isis 

Route Flags: R-relay, D-download to fib 


Public routing table : IS-IS 
Destinations : 2 Routes :2 


1S-IS routing table status : <Active> 
Destinations : 2 Routes : 2 
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Destination/Mask Proto Pre “Cost Flags NextHop Interface 


1.41.1.0/24 TS-IS-L115 ‘10 D 172.16.12.1 GigabitEthernet0/0/0 

10.11.132 1S7rIS-L1 BS “10 D 1%1012.1 GigabitEthernet0/0/0 

所 以 问题 出 现在 R2 和 R4 之 间 。 通 过 检查 发 现 ，R2 和 R4 之 间 的 链 路 连通 性 正常 ， 
设备 没有 软件 或 硬件 故障 ， 接 下 来 查看 R2 和 R4 上 IS-IS 的 配置 ， 可 以 发 现 R2 被 配置 
成 了 LI1 路由器， 而 R4 被 配置 成 了 工 2 路 由 器 。 

[R2]display current-configuration configuration isis 

# 

isis 1 

is-level level-1 

cost-style wide 

network-entity 49.0001.0000.0000,0002.00 


[R4]display current-configuration configuration isis 
# 
isis 1 

is-level level-2 


cost-style wide 
network-entity 49.0002.0000.0000.0004.00 


. 
进入 R2 的 IS-IS 进程 视图 下 , 将 is-level 命令 删除 后 , R2 和 R4 的 IS-IS 邻接 关系 成 
功 建立 ， 而 R4 也 学 习 到 了 1.1.1.0 网 络 的 路 由 。 


[R4]display isis Peer 
Peer information for IS-IS(1) 
System Id Interface Circuit Id State HoldTime Type PRI 
0000.0000,0002 GE0/0/0 CC 0000.0000.0004.01 Up 27s 12 64 


[R4]display ip routing-table protocol isis 
Route Flags: R-relay D-download to fib 





Public routing table : IS-IS 
Destinations : 4 Routes :4 


IS-IS routing table status : <Active> 


Destinations : 4 Routes ; 4 
Destination/Mask ， Proto Pre Cost Flags NextHop Interface 
1.1.1,0/24 IS-IS-L215 20 D 10.1.24.2 GigabitEthernet0/0/0 
10,1.1.1/32 IS-IS:L215 .20 D 10.1.24.2 GigabitEthernet0/0/0 











4.3 1S-IS 链 路 状态 数据 库 


4.3.1 ”概述 
IS-IS 协议 主要 有 两 大 功能 : 子 网 依赖 功能 和 子 网 无 关 功 能 。 子 网 依赖 功能 就 是 上 章 
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所 讲 的， 主要 是 完成 建立 和 维护 邻接 关系 的 功能 ， 而 子 网 无 关 功 能 主要 用 于 执行 和 管理 
链 路 状态 信息 的 交换 和 路 由 计算 ， 有 具体 可 以 分 为 四 个 过 程 : (1) 更 新 过 程 ;， (2) 路 由 决 
策 过 程 ; (3) 转发 过 程 ; (4) 接收 过 程 。 更 新 过 程 的 任务 是 泛 洪 LSP 以 构建 L1 和 L2 
的 链 路 状态 数据 库 ， 一 旦 建立 了 链 路 状态 数据 库 ， 决 策 过 程 就 使 用 数据 库 的 信息 去 计算 
一 个 最 短路 径 树 ， 并 计算 出 最 好 的 路 由 放 进 路 由 表 ; 转发 和 接收 过 程 分 别 是 指 路 由 器 对 
于 LSP 的 转发 和 接收 。 所 以 , 子 网 无 关 功 能 的 核心 是 链 路 状态 数据 库 , 本 章 重点 介绍 IS-IS 
链 路 状态 数据 库 的 内 部 结构 ， 如 果 想 要 精通 IS-IS 协议 原理 ， 必 须要 理解 链 路 状态 数据 
库 的 构建 、 更 新 的 操作 过 程 。 

组 成 IS-IS 链 路 状态 数据 库 最 基本 的 元 素 是 LSP， 叫 链 路 状态 报 文 ， 它 的 作用 是 描述 路 
由 器 的 接口 及 所 连 网 络 的 信息 ， 包 括 接口 所 连 网 络 的 子 网 、 类 型 、 开 销 等 信息 。 这 一 章 会 详 
细 介 绍 LSP 的 内 部 结构 。 除 了 LSP 报 文 外 ， 两 台 邻 接 的 JS-IS 路 由 器 在 数据 库 同 步 过 程 中 ， 
还 会 用 到 其 他 报 文 ， 比 如 PSNP 和 CSNP， 相 对 于 LSP， 这 两 种 报 文 在 为 实现 可 靠 的 数据 库 
同步 过 程 中 发 挥 了 很 大 的 作用 ， 对 于 这 两 种 报 文 的 结构 这 一 章 也 会 详细 介绍 。 

4.1.4 节 介 绍 了 IS-IS 区 域 和 路 由 器 角色 ，IS-IS 支持 两 级 区 域 的 网 络 分 层 体 系 结构 ， 
两 级 区 域 分 别 是 L1 区 域 和 1L2 区 域 ，LI 区 域 只 支持 区 域内 的 路 由 ， 而 L2 区 域 支 持 区 域 
间 的 路 由 。 每 个 区 域内 的 路 由 器 都 会 在 区 域内 泛 洪 自己 的 LSP， 也 就 是 说 ，L1 的 LSP 
在 Ll 区 域内 泛 洪 ，L2 的 LSP 会 在 L2 区 域 泛 洪 ， 最 终 使 得 区 域内 的 路 由 器 的 链 路 状态 
数据 库 都 是 同步 的 。 在 Ll 区 域 中 的 路 由 器 只 需要 构建 和 维护 一 张 L1 的 数据 库 ，L2 区 
域内 的 路 由 器 也 只 有 一 张 L2 的 数据 库 ， 但 是 L1/2 路 由 器 需要 两 张 数据 库 (Ll 和 L2)， 
图 4-17 显示 了 一 个 典型 的 IS-IS 网 络 结构 及 其 链 路 状态 数据 库 的 情况 。 
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图 4-17 IS-IS 链 路 状态 数据 库 


4.3.2 ”IS-IS 链 路 状态 数据 库 同步 使 用 的 报 文 


4.3.2.1 LSP 介绍 

前 文中 提 到 了 ，IS-IS 路 由 器 都 会 生成 LSP 〈L1 或 者 L2)， 然 后 在 区 域 中 扩散 LSP， 
以 此 来 构建 链 路 状态 数据 库 〈L1 或 L2)。 从 本 质 上 讲 ，IS-IS 的 LSP 和 OSPF 的 LSA 的 
功能 是 一 样 的 ，L1 的 LSP 用 来 描述 L1 区 域内 的 链 路 状态 和 路 由 信息 ，L2 的 LSP 用 来 
描述 L2 区 域 的 链 路 状态 和 路 由 信息 ， 这 两 种 LSP 在 报 文 格式 上 是 差不多 的 ， 这 一 节 就 
先 来 介绍 一 下 LSP 的 格式 。 

4.3.2.1.1 LSP 的 格式 

正如 在 4.1.3 节 所 介绍 的 ， 所 有 IS-IS 报 文 都 分 为 报头 和 TLV 两 部 分 。L1 LSP 和 1L2 
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LSP 的 报头 是 一 样 的 ， 图 4-18 显示 了 LSP 的 报 文 格式 。 


ISO 10589 TSI5 InTRA Domain Routeing Information Rss Protoco] 
日 TsSQ 10589 ISsIS Link state Protocol Data Unit 
PDU length: 120 
Remaining lifetime: i1193 
LSP-ID: 0000.0000.0001.00-00 
sequence number : 0x0000000b 
闲 Checksum: Oxcd4d [correct] 
GB Type block(0Ox03): Partition Repair:0, Attached bits:0, Overload bit:D，I5 type:3 
0... .... = Partition Repair: Not supported 
田 .000 0... = Attachment: 0 
. .0.. = Overload bit: Not set 
这 1ii1 = Type of Intermediate System: Level 2 {3) 
田 Protocols supported {1) 
困 Area address(es) (2) 
ITS Reachability (12) 
田 IP Interface address(es) (8) 
外 ITP Internal reachability (60) 


图 4-18 LSP 报 文 格式 


报 文 最 前 面 的 通用 报头 已 经 在 前 文中 介绍 过 , 这 里 从 LSP 的 专用 报头 开始 解释 一 下 
各 字段 的 含义 。 

e PDTU 长 度 : 是 指 整个 LSP 报 文 的 长 度 。 

e。 Remaining Lifetime: 剩余 生存 时 间 ， 表 示 LSP 到 期 之 前 的 生存 时 间 。 

。 LSP-ID: LSP 的 标识 号 ， 用 于 LSP 的 鉴别 。 一 个 完整 的 LSP-ID 是 由 源 路 由 器 
的 系统 ID、 伪 节点 ID 和 LSP 报 文 编 号 构成 的 。 

。 Sequence Number: LSP 的 序列 号 ， 是 一 个 32 位 的 无 符号 整数 。 

e Checksum: 从 Sys-ID 开始 到 报 文 末尾 所 有 字段 的 校 验 和 。 

e ”Partition Repair: 区 域 修复 位 ， 表 示 源 路 由 器 是 否 支 持 区 域 修复 ， 虽 然 在 Ll 和 
L2 LSP 中 都 有 这 一 位 , 但 实际 上 只 有 在 L2 LSP 中 发 挥 作用 。 华 为 VRP 系统 目 
前 不 支持 该 功能 ， 始 终 设置 为 0。 

e Attachment: 区 域 关 联 位 ， 用 于 表明 源 路 由 器 是 否 与 多 个 区 域 相 连 。L1/2 路 由 
器 连接 了 多 个 区 域 ， 所 以 会 在 它 的 LI LSP 中 设置 该 位 为 1。L1 路 由 器 利用 该 
位 来 判断 本 区 域 的 L1/2 路 由 器 。 它 下 面 的 四 个 比特 位 表示 所 连 区 域 的 度量 类 
型 ， 从 左 到 右 依次 表示 : (第 7 位 : 差错 度量 ; 第 6 位 : 代价 度量 ; 第 5 位 : 时 
延 度量 ， 第 4 位 : 缺 省 度量 )。 目 前 华为 VRP 系统 只 支持 缺 省 度量 。 

e ”Overload Bit: 链 路 状态 数据 库 的 超载 位 ， 超 载 时 表明 始 发 路 由 器 的 内 存 和 CPU 
资源 已 经 严重 不 足 。 

e JIS Type: 路 由 器 类 型 ， 用 于 表明 LSP 源 路 由 器 是 Ll 路 由 器 还 是 L2 路 由 器 。 

除了 报头 外 ，L1 和 L2 的 LSP 中 可 以 包含 不 同 的 TLV， 但 它们 使 用 的 TLV 有 些 不 

一 样 ， 后 面 会 详细 介绍 这 些 TLV。 
下 面 的 输出 内 容 显示 了 华为 VRP P 系统 中 IS-IS S 链 路 状态 数据 库 的 结构 。 


[R21]display isis lsdb 
‘Database J for IS-IS(1) 
Level-1 Link State Database 0 ， 
LSPID Seq Num Checksum Holdime Length ATT/P/OL 
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0000.0000.0001.00-00 ”0x0000000d 0x4d23 968 78 0/0/0 

0000.0000.0002.00-00* 0x00000012 ”0xad27 1010 90 1/0/0 
0000.0000.0002.01-00* 0x00000008 0xdb16 0 (888) 27 0/0/0 
0000.0000.0003.00-00 ”0x0000000a Oxe6a8 481 65 0/0/0 
0000.0000.0004.00-00 ”0x00000007 Oxafb5 977 78 0/0/0 
0000.0000.0004.01-00 0x00000004 OQxcb9c 977 65 0/0/0 
Total LSP(s): 6 


*(In TLV)-Leaking Route, *(By LSPID)-Self LSP, +-Self LSP(Extended), 
ATT-Attached, P-PRtition, OL-Overload 

















Level-2 Link State Database 

LSPID Seq Num Checksum Holdtime Length ATT/P/OL 
0000,0000.0001.00-00 “0x0000000f 0x592b 907 ”104 0/0/0 
0000,0000.0002.00-00* 0x0000001c ”0xde6f 1010 108 0/0/0 
0000.0000.0002.01-00* 0x00000009 Oxd917 0 (970) 27 0/0/0 
0000.0000.0003.00-00 0x00000015 0xS9da 1009 78 0/0/0 
0000.0000.0004.00-00 ”0x00000008 0x358b 950 95 0/0/0 
0000.0000.0004.01-00 0x00000001] “0xd91d 0(967) 27 0/0/0 


Total LSP(s): 6 
*(In TLV)-Leaking Route, *(By LSPID)-Self LSP, +-Self LSP(Extended), 
ATT-Attached, P-PRtition, OL-Overload 


由 上 面 的 输出 信息 中 可 以 看 到 , 该 路 由 器 为 L1/2 路 由 器 ,因为 有 两 张 独立 放置 的 数 
据 库 (L1 和 LL2)。 数据 库 中 的 每 一 行 代表 了 一 个 LSP, 表示 每 一 个 LSP 显示 了 以 下 信息 : 
LSPID、LSP 序列 号 、LSP 校 验 和 、LSP 剩余 生存 时 间 、LSP 长 度 、 区 域 关联 位 、 区 域 
修复 位 和 数据 库 过 载 位 。LSPID 之 后 的 星 号 * 表 示 该 LSP 是 本 地 路 由 器 生成 的 。 下 面 就 
这 些 信 息 进行 详细 介绍 。 

4.3.2.1.2 LSPID 

LSPID 用 来 在 链 路 状态 数据 库 中 唯一 标识 一 条 LSP， 使 接收 路 由 器 能 区 别 出 每 条 不 
同 的 LSP 及 其 始 发 源 路 由 器 。 如 图 4-18 所 示 ，LSPID 总 长 8Byte。 前 6Byte 表示 始 发 路 
由 器 的 系统 ID， 在 系统 ID 之 后 的 1 个 字 节 表示 伪 节 点 ID。 如 果 这 个 字 节 值 是 零 ， 表 示 
LSP 是 由 普通 路 由 器 发 出 的 ， 如 果 是 非 零 ， 则 表示 LSP 是 由 DIS 发 出 的 。 比 如 上 例 中 
LSPID 为 0000.0000.0002.01-00 和 0000.0000.0004.01-00 的 两 条 LSP 都 是 由 相应 广播 网 络 
中 的 DIS 产生 的 。 前 文中 提 到 过 ， 由 系统 ID+ 伪 节点 ID 一 起 构成 了 LAN ID。 

LSPID 最 后 的 1Byte 表示 LSP 编号 。 因 为 IS-IS 协议 的 LSP 只 有 Ll 和 L2 两 类 ， 所 
以 不 论 是 在 L1 区 域 ， 还 是 在 L2 区 域 ， 一 台 路 由 器 会 把 本 区 域 的 所 有 路 由 信息 都 放 在 一 
条 LSP 传送 。 如 果 路 由 信息 很 多 ， 会 导致 LSP 报 文 很 大 以 至 于 超过 了 发 出 接口 的 MTU 
值 ， 这 时 需要 分 段 处 理 ， 也 就 是 将 路 由 信息 放 在 不 同 分 段 的 LSP 传送 。LSP 第 一 个 分 段 
的 编号 为 0， 第 二 个 分 段 的 编号 为 1， 以 此 类 推 。 如 果 某 些 分 段 在 传递 过 程 中 丢失 了 ， 那 
么 接收 端 路 由 器 也 会 放弃 所 有 其 他 分 段 ， 导 致 该 LSP 的 所 有 分 段 都 必须 重 传 ， 造成 带宽 
的 浪费 。 

LSPID 由 一 段 数字 组 成 ， 可 读 性 不 强 , 为 使 管理 员 更 容易 、 直 观 地 区 别 不 同 的 LSP， 
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可 以 使 用 主机 名 映射 功能 ， 也 就 是 使 用 始 发 路 由 器 的 主机 名 来 替代 系统 ID。 华 为 VRP 
系统 启用 主机 名 映射 功能 的 方法 分 为 动态 主机 名 映射 和 静态 主机 名 映射 。 

动态 主机 名 映射 功能 是 指 以 类 型 137 的 TLV 将 自己 的 主机 名 随 LSP 发 布 到 网 络 中 ， 
这 个 TLV 是 可 选 的 ， 在 其 他 IS-IS 路 由 器 上 可 以 通过 命令 看 到 本 地 System-ID 直接 被 主 
机 名 所 替代 。 动 态 主 机 名 的 TLV 是 可 选 的 ， 它 可 以 存在 于 LSP 中 的 任何 位 置 。 其 中 ， 
TLYV 的 value 值 不 能 为 空 。 设 备 在 发 送 LSP 的 时 候 可 以 决定 是 否 携带 该 TLV， 接 收 端的 
设备 也 可 以 决定 是 否 忽 略 该 TLV， 或 者 提取 该 TLV 的 内 容 放 在 自己 的 映射 表 中 。 

静态 主机 名 映射 是 指 在 本 地 设备 上 对 其 他 运行 IS-IS 协议 的 设备 设置 主机 名 与 
System-ID 的 映射 。 静态 主机 名 映射 仅 在 本 地 设备 生效 ， 并 不 会 通过 LSP 报 文 发 送出 去 。 

在 IS-IS 进程 下 使 用 is-name 命令 指定 主机 名 就 可 以 了 。 下 例 显示 了 使 用 了 动态 主机 
名 映射 后 的 显示 结果 ， 这 里 只 输出 了 L1 的 数据 库 信息 。 


[R2]display isis lsdb 
Databasé infotmation for IS-IS(1) 
Level-1 Link State Database 
~ LSPID Seq Num Checksum Holdtime Length ATT/P/OL 

R1.00-00 0x00000008 Oxad74 893 83 0/0/0 
R2.00-00* 0x00000009 0x3f3c 919 106 0/0/0 
R2.01-00* “一 0x00000001 Oxe90f 0(29) 27 0/0/0 
R3.00-00 0x00000005 Oxeb55 960 70 0/0/0 
R4.00-00 0x00000006 ” 0x28e7 933 83 0/0/0 
R4.01-00 0x00000002 Oxc6al 896 65 0/0/0 


4.3.2.1.3 LSP 序列 号 

LSP 序列 号 用 来 表示 被 刷新 的 次 数 ， 是 一 个 4Byte 长 的 无 符号 整数 ， 从 0 开始 计 
数 , 但 是 一 台 路 由 器 启动 IS-IS 进程 后 ， 第 一 次 生成 LSP 序列 号 是 1， 以 后 LSP 每 刷新 
(重新 生成 ) 一 次 ， 序 列 号 加 1， 最 大 值 为 22-1。 通 过 LSP 序列 号 ， 可 以 判断 一 条 LSP 
的 新 旧 。 

如 图 4-19 所 示 ， 路 由 器 在 接收 到 LSP 后 ， 会 跟 本 地 链 路 状态 数据 库 作 比较 。 如 果 
本 地 链 路 状态 数据 库 没 有 此 LSP， 则 直接 将 其 放 进 数据 库 ， 并 且 泛 洪 此 LSP 到 区 域 中 。 
如 果 数 据 库 中 已 经 有 了 这 个 LSP, 则 比较 新 收 到 的 LSP 和 本 地 数据 库 中 已 有 的 LSP 序列 
号 , 如 果 新 收 到 的 LSP 序列 号 大 于 数据 库 已 有 的 , 则 用 这 个 新 的 LSP 替换 掉 数 据 库 原 有 
的 LSP， 并 产生 新 的 LSP 泛 洪 到 区 域 中 ; 如 果 本 地 数据 库 中 的 LSP 序列 号 更 大 ， 则 忽略 
掉 新 到 的 LSP， 并 向 接收 端口 发 送 自 己 的 LSP; 如 果 新 到 的 LSP 和 本 地 数据 库 中 的 LSP 
序列 号 一 样 ， 则 忽略 新 到 的 LSP， 不 做 任何 操作 。 

前 面 提 到 ，LSP 的 序列 号 只 有 4Byte 长 ， 它 的 最 大 值 为 22”-1=4294967295， 读 者 一 
定 会 担心 ， 如 果 哪 一 天 LSP 的 序列 号 用 完了 (超出 范围 ) 怎么 办 ? 这 里 我 们 假设 路 由 器 
使 用 最 小 的 LSP 刷新 间隔 (30s) 来 不 断 生 成 新 的 LSP， 那 么 用 完整 个 序列 号 空间 所 使 
用 的 时 间 就 是 (4294967295x30) s, 按 年 来 计算 就 是 (4294967295x30)/ (365x24x3600)， 
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这 个 值 大 约 是 4085， 也 就 是 说 即 ， 使 路 由 器 每 30s 不 停 地 产生 LSP， 要 花 上 4085 年 才 
能 耗 完 序列 号 。 









0 
-一 一 收 到 的 No VS 本 地 的 No。 存储 到 LSDB 
发 送 自己 的 LSP 


图 4-19 路 由 器 对 于 接收 LSP 的 处 理 


关于 LSP 的 序列 号 ， 这 里 有 两 种 情况 需要 注意 。 

第 一 种 情况 : 如 果 一 台 路 由 器 发 生 故 障 而 没有 向 其 他 路 由 器 清除 它 的 LSP (序列 号 
已 经 大 于 1)， 等 到 这 台 路 由 器 从 故障 中 恢复 后 它 会 重新 产生 序列 号 为 1 的 LSP， 其 他 路 
由 器 接收 到 这 条 LSP 后 会 忽略 ， 导 致 路 由 无 法 及 时 更 新 。 解 决 的 办 法 是 在 其 他 路 由 器 接 
收 到 这 条 序列 号 为 1 的 LSP 后 , 会 立刻 将 本 地 数据 库 中 的 LSP 拷贝 一 份 扩散 出 来 ,这 台 
路 由 器 接收 到 后 会 产生 一 条 序列 号 比 原来 LSP 还 要 大 1 的 新 的 LSP， 保 证 了 路 由 器 故障 
前 后 生成 的 LSP 的 序列 号 的 连续 性 。 

第 二 种 情况 : 当 LSP 的 序列 号 到 达 最 大 值 时 ， 这 台 路 由 器 的 IS-IS 进程 会 停止 一 段 
时 间 ， 这 个 时 间 =LSP 最 大 生存 时 间 + 零 生存 时 间 ， 直 到 这 条 LSP 在 网 络 中 其 他 路 由 器 的 
数据 库 被 老化 并 且 清 除 。 接 着 ， 路 由 器 重新 启动 ， 启 动 完成 后 会 生成 一 条 序列 号 为 1 的 
新 的 LSP。 

4.3.2.1.4 LSP 校 验 和 

校 验 和 用 来 在 接收 端 路 由 器 上 进行 完整 性 检查 ， 确 保 LSP 在 传送 过 程 没有 被 损坏 。 
校 验 和 的 结果 是 利用 校 验 和 算法 根据 LSP 中 剩余 生存 时 间 字 段 之 后 到 报 文 最 后 的 内 容 计 
算出 来 的 ， 这 个 值 会 在 LSP 始 发 路 由 器 计算 一 次 ， 然 后 将 结果 放 在 校 验 和 字段 中 。LSP 
的 接收 路 由 器 也 会 根据 同样 的 算法 和 内 容 计 算出 一 个 校 验 和 的 值 ， 用 这 个 值 和 收 到 的 校 
验 和 值 进 行 比较 ， 如 果 一 致 ， 则 说 明报 文 是 完整 的 ， 将 其 存放 进 数 据 库 ， 然 后 实行 路 由 
计算 ; 如 果 校 验 和 不 一 致 ， 则 说 明 LSP 在 传送 的 过 程 中 被 损坏 了 ， 接 收 端 路 由 器 会 将 这 
条 LSP 的 剩余 生存 时 间 重 置 为 0， 然 后 从 数据 库 中 清除 该 LSP， 被 损坏 的 LSP 是 不 能 参 
与 路 由 计算 的 。 

4.3.2.1.5 LSP 剩余 生存 时 间 

在 ISO10589 中 规定 IS-IS 的 LSP 最 大 生存 时 间 为 1200s， 华 为 VRP 系统 可 以 通过 
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timer Lsp-max-age 命令 设置 LSP 的 最 大 生存 年 龄 ， 最 大 可 以 配置 到 65535s。 始 发 路 由 器 
产生 LSP 时 , 会 将 剩余 生成 时 间 设 置 到 最 大 年 龄 值 ,然后 泛 洪 到 区 域 中 ,这 条 LSP 被 存 
储 在 数据 库 中 ， 并 且 它 的 剩余 生成 时 间 会 随 着 时 间 的 推移 而 逐渐 减少 ， 如 果 没有 及 时 得 
到 刷新 ， 这 条 LSP 的 剩余 生存 时 间 减 少 到 0 时 会 从 数据 库 中 清除 。 

IS-IS 和 OSPF 一 样 ， 也 有 周期 性 的 刷新 ，IS-IS 的 刷新 闻 隔 时 间 为 900s， 华 为 VRP 
系统 可 以 通过 timter lsp-refresh 命令 修改 刷新 间隔 时 间 ， 最 小 间隔 为 1 秒 ， 最 大 间隔 为 
65534s。 减少 刷新 闻 隔 时 间 ， 可 以 加 快 IS-IS 的 收敛 时 间 ， 但 同时 增 大 了 网 络 宽带 和 路 由 
器 CPU 的 资源 开销 ; 相反 ， 增 大 刷新 间隔 时 间 ， 可 以 减少 对 资源 的 占有 ， 但 是 不 利于 网 
络 的 收敛 。 在 调整 LSP 的 刷新 闻 隔 时 间 时 ， 要 记得 LSP 的 最 大 生存 时 间 也 要 做 适当 的 调 
整 ， 并 且 要 保证 最 大 生存 时 间 要 大 于 刷新 闻 隔 时 间 。 

当 一 条 LSP 收 到 始 发 路 由 器 的 刷新 时 ， 剩 余生 存 时 间 被 重 置 到 最 大 生存 时 间 ; 如 果 
没有 得 到 及 时 刷新 ，LSP 的 剩余 生存 时 间 会 逐渐 减少 到 0， 这 时 ， 路 由 器 在 等 待 60s 后 ， 
如 果 始 发 路 由 器 还 没 发 来 更 新 ， 那 么 该 LSP 会 被 清除 掉 ， 这 个 60s 的 时 间 叫 “ 零 年 龄 老 
化 时 间 ” 相当 于 在 宣判 一 条 LSP“ 死 刑 ” 之 前 最 后 的 宽 限期 。 华 为 VRP 系统 无 法 修改 
“ 零 年 龄 老化 时 间 ” 的 默认 值 。 

4.3.2.1.6 区域 关 联 位 (ATIT ) 

区 域 关联 位 用 于 指明 一 台 L2 或 L1/2 路 由 器 具有 其 他 区 域 的 路 由 (与 其 他 区 域 有 连 
接 )。 由 前 面 的 内 容 可 以 知道 ，IS-IS 的 L1/2 路 由 器 虽然 是 Ll 区 域内 的 路 由 器 ， 但 它 同 
时 连接 到 了 骨干 区 域 (L2 区 域 )， 具 备 Ll1 和 L2 两 张 数据 库 。 有 了 L2 数据 库 ， 也 就 等 
于 有 了 其 他 区 域 的 路 由 信息 。 一 台 L1/2 路 由 器 在 向 Ll 区 域 通告 的 LSP 中 将 ATT 位 设 
置 为 1， 向 L1 区 域内 的 路 由 器 表明 它 具 有 到 其 他 区 域 的 路 由 信息 。L1 路 由 器 根据 这 条 
LSP， 生 成 一 条 指向 最 近 的 L1/2 路 由 器 的 默认 路 由 ， 用 于 将 数据 包 发 向 其 他 区 域 。 这 里 
需要 注意 的 问题 是 ,L1/2 通告 ATT=1 的 L1 LSP 的 条 件 是 至 少 在 骨干 区 域 有 个 活动 的 L2 
邻接 。 虽 然 在 LI1 和 L2 的 LSP 都 能 设置 ATT 位 ,但 是 ATT 位 只 能 用 于 L1 区 域 的 选 路 。 
同时 ， 区 域 关联 位 允许 一 台 L1/2 路 由 器 来 表明 它 连接 到 骨干 区 域 的 链 路 使 用 的 开销 类 
型 ， 可 以 参照 前 文 对 LSP 字段 的 解释 内 容 。 

[Rl1]display isis lsdb 

Database information for IS-IS(1) 


-~--------------------------------------------------- 


Level-1 Link State Database 


LSPID Seq Num Checksum Holdtime Length ATT/P/OL 
0000.0000.0001.00-00* 0x00000009 0x4fb 709 101 0/0/0 
0000.0000.0001.01-00* 0x00000002 0x5428 709 54 0/0/0 
0000.0000.0001.02-00* 0x00000002 0x6416 707 54 0/0/0 
0000.0000.0002.00-00 Ox0000000a 0x648b 1179 90 1/0/0 


[Ri]display ip routing-table 
Route Flags: R-relay, D-download to fib 
Routing Tables: Public 
Destinations : 16 Routes : 17 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
0.0.0.0/0 JIS-IS-L1 15 10 D 10.1.122 GigabitEthemet0/0/0 
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10.1.1.1/32 Direct 0 0 D 127.0.0.1 “LoopBack0 
10.1.2.2/32 1IS-IS-L1 15 10 D 10.1.12.2 GigabitEthernet0/0/0 
10.1.3.3/32~ IS-IS-L1 15 10 D 10.1.13.3 GigabitEthernet0/0/1 


如 上 面 的 输出 显示 ， 路 由 器 R1 接收 到 一 条 ATT 设置 为 1 的 LSP， 在 它 的 路 由 器 表 
就 会 增加 一 条 默认 路 由 ， 下 一 跳 指向 离 它 最 近 的 L1/2 路 由 器 。 

也 可 以 根据 实际 需要 ， 配 置 L1/2 是 否 通告 ATT 置 位 的 LSP， 在 华为 VRP 系统 中 ， 
使 用 attached-bit advertise 命令 配置 能 让 L1/2 路 由 器 在 通告 的 Ll LSP 中 永远 或 永远 不 设 
置 ATT 位 ， 也 可 以 通过 命令 attached-bit avoid-learing 配置 在 接收 到 ATT 置 位 的 Ll LSP 
时 ，L1 路 由 器 也 不 生成 默认 路 由 。 

4.3.2.1.7 ”Partition Repair ( 区 域 修复 ) 

OSPF 协议 要 求 网 络 中 的 区 域 是 连续 的 , 并 且 只 能 有 一 个 区 域 0。 如果 区 域 不 连续 或 
网 络 中 有 多 个 区 域 0〈 比 如 区 域 0 被 分 裂 开 了 )， 需 要 使 用 虚 链 路 技术 来 修复 。IS-IS 协 
议 的 区 域 修 复 是 指 L1 区 域 被 分 裂 后 的 修复 ， 如 果 该 位 设置 为 1， 表示 源 路 由 支持 区 域 修 
复 。 一 个 L1 区 域 修复 需要 通过 骨干 区 域 (L2 区 域 )， 如 图 4-20 所 示 。 

如 图 4-20 所 示 ， 通 过 骨干 区 域 创建 虚 连 
接 实现 L1 区 域 的 修复 ， 虚 连接 的 端点 是 在 该 
L1 区 域 的 两 台 L1/2 路 由 器 上 ,它们 产生 的 LSP 
会 将 P 位 设置 为 1。 这 里 不 详 述 虚 连接 的 具体 
建立 过 程 ， 有 兴趣 的 读者 可 以 参考 相关 资料 。 
华为 目前 的 VRP 系统 还 不 支持 区 域 修复 功能 ， 
所 以 我 们 看 到 的 LSP 中 了 位 为 0。 

4.3.2.1.8 OverLoad (过 载 ) 

OverLoad 位 表示 始 发 路 由 器 的 数据 库 是 
否 过 载 。 在 一 般 情况 下 ， 该 位 设置 为 0， 如 果 
设置 为 1， 则 表示 LSP 始 发 源 路 由 器 的 CPU 图 4-20 ”IS-IS 区 域 修复 
和 内 存 资源 已 经 不 足 ， 无 法 维护 一 个 完整 的 链 路 状态 数据 库 ， 数 据 流 经 过 这 台 设 备 时 有 
可 能 得 不 到 正常 的 转发 。 如 果 一 台 路 由 器 收 到 了 过 载 位 设置 为 1 的 LSP， 那 么 它 在 进行 
SPF 计算 时 不 会 以 过 载 的 那 台 路 由 器 作为 中 间 转 发 设备 ， 除 了 去 往 那 台 过 载 路 由 器 的 直 
连 网 络 外 ， 如 图 4-21 所 示 。 











图 4-21 IS-IS 过 载 设 置 


如 图 4-21 所 示 , 正常 情况 下 ,，R1 通过 R2 访问 10.1.1.0 网 络 , 但 是 如 果 R2 的 LSDB 
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处 于 过 载 状态 〈 发 出 的 LSP 过 载 位 为 1 )， 那 么 R1 就 会 绕 过 R2， 而 通过 R4 和 RS 访问 
10.1.1.0 网 络 ， 但 是 R1 访问 R2 的 直 连 网 络 不 受 影响 。 

下 面 的 输出 内 容 显示 了 LSDB 中 OL 置 位 的 LSP。 

[R1ldisplay isis lsdb 

Database information for 1S-IS(1) 
Level-1 Link State Database 
LSPID SeqNum Checksum Holdime Length ATT/P/OL 
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0000.0000.0001.00-00* 0x00000009 ”0xf708 1086 | 101 0/0/0 


0000.0000.0002.00-00 ”0x00000009 0x6292 1164 90 0/0/1 
0000.0000.0003.00-00 ”0x00000009 0x943e 1143 90 1/0/0 


在 华为 的 VRP 系统 中 ,设备 可 以 自动 进入 过 载 状态 (比如 设备 工作 异常 )， 在 过 
载 状态 下 , 设备 会 删除 所 有 引入 或 渗透 进来 的 路 由 信息 ; 也 可 以 通过 手工 设置 让 设备 
进入 过 载 状 态 ， 比 如 在 设备 需要 升级 或 维护 时 ， 需 要 将 业务 切换 到 其 他 路 径 转 发 。 这 
种 方式 下 , 还 可 以 通过 配置 让 设备 在 过 载 状态 下 是 否 删除 所 有 引入 或 渗透 进来 的 路 由 
信息 。 

一 般 来 说 ， 现 在 的 设备 性 能 比 以 前 好 多 了 ， 通 过 过 载 设置 来 避免 因为 设备 性 能 不 足 
而 带 来 的 问题 , 这 种 需求 已 经 不 多 了 。 但 是 读者 还 是 了 解 一 下 过 载 特性 的 一 个 扩展 应 用 ， 
如 图 4-20 所 示 。 

如 图 4-22 所 示 ，AS100 为 国内 某 二 级 运营 商 网 络 的 一 部 分 图 ，AS200 为 某 一 级 
运营 商 网 络 一 部 分 图 ，AS100 内 使 用 IS-IS 承载 网 络 核 心路 由 信息 ; AS100 的 R2 和 
R3 通过 eBGP 接收 来 自 AS200 的 公 网 路 由 ，R2 和 R3 同时 通过 IS-IS 协议 向 AS100 
下 发 默认 路 由 。 假 设 某 一 天 ，R2 需要 升级 或 维护 ,设备 重启 后 ， 由 于 IS-IS 协议 先 启 
动 ， BGP 后 启动 , 所 以 当 AS100 内 部 路 由 器 有 了 R2 的 默认 路 由 后 , 会 将 去 往 AS200 
的 数据 流 发 往 R2， 而 此 时 的 R2 的 BGP 还 没完 全 收敛 ， 数 据 包 到 达 R2 时 就 会 被 丢 
弃 ， 导 致 路 由 黑洞 。 





图 4-22 OFL 位 的 扩展 应 用 


在 华为 VRP 系统 下 ， 解 决 的 办 法 是 在 R2 的 IS-IS 进程 下 配置 如 下 命令 的 一 种 : 
set-overload on-startup Xxx 

这 条 命令 配置 路 由 器 重启 时 设置 OverLoad 位 的 时 间 ， 超 过 这 个 时 间 后 ，OverLoad 
set-overload wait-for-bgp xx 


这 条 命令 使 路 由 器 只 有 在 BGP 收敛 完成 后 ， 才 清除 OverLoad 位 。 
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4.3.2.2 SNP (序列 号 报 文 ) 介绍 
在 前 文中 提 到 ，IS-IS 协议 通过 LSP 的 泛 洪 来 实现 链 路 状态 数据 库 的 同步 ， 那 么 如 
何 保证 这 个 泛 洪 过 程 的 可 靠 性 及 LSP 的 完整 性 是 我 们 这 一 节 要 学 习 的 主题 SNP 就 是 用 
来 跟踪 和 维护 链 路 状态 数据 库 的 同步 的 报 文 ， 它 分 为 两 类 : 
e CSNP (Complete Sequence Number Packet: 完全 序列 号 报 文 ); 
e PSNP (Partial Sequence Number Packet: 部 分 序列 号 报 文 )。 
CSNP 和 PSNP 的 报 文 格式 是 相同 的 , 而 且 都 携带 LSP 的 摘要 信息 。 不同 的 地 方 是 ， 
CSNP 报 文 携带 的 是 当前 路 由 器 的 链 路 状态 数据 库 中 的 所 有 LSP 的 摘要 信息 ,类 似 OSPF 
的 DD (数据 库 描述 〉 报 文 ， 而 PSNP 报 文 携带 的 是 数据 库 中 部 分 LSP 的 摘要 信息 。 这 
个 摘要 包括 了 LSP IID、 序列 号 、 校 验 和 及 剩余 生存 时 间 。 
因为 链 路 状态 数据 库 有 L1 类 型 和 L2 类 型 的 ， 所 以 CSNP 和 PSNP 两 种 报 文 也 有 
L1 类 型 和 L2 类 型 的 产生 。 并 且 在 广播 网 络 和 P2P 网 络 中 ， 对 这 两 种 报 文 的 使 用 还 有 
些 区 别 。 
4.3.2.2.1 CSNP (完全 序列 号 报 文 ) 
在 链 路 状态 数据 库 的 同步 过 程 中 ，CSNP 报 文 的 作用 是 为 了 确保 区 域内 所 有 路 由 器 
的 链 路 状态 数据 库 保持 一 致 。 不 论 是 广播 网 络 还 是 P2P 网 络 ， 一 台 路 由 器 接收 到 另 一 台 
路 由 器 的 CSNP 报 文 后 ， 会 对 比 自己 的 链 路 状态 数据 库 。 如 果 发 现 自己 的 链 路 状态 数据 
库 中 不 完整 《有 缺失 的 LSP)， 就 会 向 接收 CSNP 报 文 的 接口 发 送出 PSNP 报 文 ， 用 来 请 
求 自 己 还 没有 的 LSP; 如 果 发 现 自己 的 链 路 状态 数据 库 中 的 LSP 不 是 最 新 的 ， 也 会 发 送 
PSNP 去 请 求 最 新 的 LSP; 如 果 发 现 比 自己 的 LSP 更 加 新 ， 则 将 自己 的 LSP 泛 洪 出 去 。 
这 个 过 程 用 来 帮助 区 域内 的 路 由 器 完成 数据 库 的 同步 。 
在 广播 网 络 和 P2P 网 络 中 ， 数 据 库 同步 的 过 程 有 些 差别 。 在 广播 网 络 中 ， 路 由 器 之 
间 在 建立 完 邻 接 关 系 后 ， 直 接 泛 洪 和 交换 LSP， 从 而 完成 数据 库 的 同步 。 但 是 ， 在 广播 
网 络 中 ， 由 于 LSP 的 泛 洪 是 不 可 靠 的 〈 不 需要 接收 端 确认 )， 所 以 为 确保 每 台 路 由 器 数 
据 库 的 完整 性 ，DIS 会 周期 性 地 泛 洪 CNSP 报 文 ; 在 点 对 点 网 络 中 ， 路 由 器 之 间 邻 接 关 
系 建立 之 后 ， 直 接 交 换 CSNP 报 文 ， 而 且 需 要 在 接收 到 LSP 后 需要 向 发 送 方 确认 。 数 据 
库 的 同步 详细 过 程 下 一 节 介 绍 。 
图 4-23 所 示 为 CSNP 的 报 文 格式 ，CSNP 报 文 跟 其 他 IS-IS 的 报 文 一 样 ， 也 分 为 
报头 《通用 和 专用 ) 和 TLV 两 部 分 ， 由 于 通用 报头 在 前 面 已 经 介绍 过 ， 这 里 没 显 示 
出 来 了 。 
对 CSNP 报 文中 各 字段 的 介绍 如 下 。 
。 PDU length: 整个 CSNP 报 文 的 长 度 。 
。 Source-ID: 始 发 源 路 由 器 的 系统 ID。 在 P2P 网 络 中 是 指 发 送 端 路 由 器 的 系统 
ID， 在 广播 网 络 中 指 DIS 的 系统 ID。 

e StartLSP-ID: 起 始 LSP-ID， 代 表 CSNP 报 文 描述 的 LSP 条 目 中 第 一 条 LSP 的 
LSP-ID。 

e。 End LSP-ID: 结束 LSP-ID， 代 表 CSNP 报 文 描述 的 LSP 条 目 中 最 后 一 条 LSP 
的 LSP-ID。 

e。 LSP Entries: LSP 条 目 ， 使 用 类 型 9 的 TLV， 用 来 携带 描述 的 LSP 摘要 信息 ， 
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日 TS0 10589 ISTS InTRA Domain Routeing Information Exchange Protocol 
Intra Domain Routing Protocol Discriminator: ISIS (0x83) 
PDU Header Length: 33 
Version: 1 
System ID Length: 6 
., .1 1001 = PDU Type: L2 CSNP (25) 
000. .... = Reserved: Ox00 
Version2 (==1): 1 
Reserved (==0): 0 
Max. AREAS: (0==3): 3 
SISO 10589 ISIS Complete Sequence Numbers Protocol Data Unit 
PDU length: 131 
Source-ID: 0000.0000.0002 
start LSP-ID: 0000.0000.0000.00-00 
End Lsp-ID: ffff.ffff.ffff.fft-ff 
LSP entries (96) 
BLsp Entry 
LSP Sequence Number: Ox0000000b 
Remaining Lifetime: 1194 
LSP checksum: Oxcd4d 
LSP-ID: 0000.0000.0001.00-00 
BLsp Entry 
LSP-ID: 0000.0000.0001.01-00 
由 LSP Entry 
LSP-ID: 0000.0000.0002.00-00 
田 LSP Entry 
LSP-ID: 0000.0000.0003.00-00 
一 LSP Entry 
LSP-ID: 0000. 0000. 0003. 01-00 
因 LSP Entry 
LSP-ID: 0000.0000.0004.00-00 


图 4-23 CSNP 格式 


所 有 LSP 的 摘要 信息 按 LSP-ID 的 升序 依次 排列 在 LSP 条 目 中 。 

由 于 有 些 链 路 状态 数据 库 的 信息 较 多 ,单个 CSNP 报 文 不 能 完整 描述 ,所 以 CSNP 
报 文 引 入 了 Start LSP-ID 和 End LSP-ID 两 个 字段 ， 用 来 说 明 一 个 CSNP 报 文 所 描述 
的 LSP 的 范围 。 如 图 4-23 所 示 ， 一 个 CSNP 报 文 如 果 描 述 了 整个 链 路 状态 数据 库 中 
的 信息 ， 那 么 它 描述 的 LSP-ID 就 起 始 于 0000.0000.0000.00， 结 束 于 FFFF.FFFF. 
FFFF.FF 。 

4.3.2.2.2 PSNP (部 分 序列 号 报 文 ) 

如 前 文 所 述 , 一 个 PSNP 报 文 只 携带 部 分 LSP 描述 信息 , 而 不 是 整个 数据 库 的 信息 ， 
所 以 在 报 文 内 部 不 需要 起 始 和 结束 的 LSP-ID 字段 。PSNP 有 两 个 作用 : 

e 在 广播 网 络 和 点 对 点 网 络 中 请 求 缺 失 或 最 新 的 LSP; 

e。 在 点 对 点 网 络 中 确认 收 到 的 LSP。 

图 4-24 所 示 为 PSNP 的 报 文 格式 。 
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四 ISO 10589 ISIS InTRA Domain Routeing Information Exchange Protocol 
日 TSO 10589 ISIS Partial Sequence Numbers Protoco]l Data Unit 
PDU Tength; 51 
Source-ID: 555555555555 
SLsp entries (32) 
Lsp Entry 
LSP Sequence Number : Ox00000009 
Remaining Lifetime: 1193 
LSP checksum: Oxf909 
LSP-ID:; 1111.1111.1111.00-00 
Lsp Entry 
Lsp-ID: 1111.1111.1111.00-01 


图 4-24 PSNP 的 报 文 格式 


4.3.2.2.3 CSNP 和 PSNP 支持 的 TLV 
不 论 是 Ll 还 是 L2 的 CSNP 和 PSNP， 都 可 以 使 用 以 下 四 类 TLV， 见 表 4-2 所 示 。 
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玫 坟 2 CSNP 和 PSNP 支持 的 TLV 
TV TE 
LSP 条 目 类 型 9 携带 LSP 的 摘要 ， 包括 每 个 LSP 的 剩余 生存 时 间 、 LSP-ID、 、 序 列 号 


和 校 验 和 ， 如 图 4.24 所 示 
认证 信息 携带 SNP 的 认证 信息 ， 提 高 网 络 的 安全 性 

可 选 的 校 验 和 携带 校 验 和 信息 ， 用 于 接收 到 端 检 查 报 文 是 否 被 算 改 
实验 用 未 确定 意义 ， 实 验 使 用 


4.3.3 ” 泛 湛 机 制 


4.3.3.1 概述 
作为 一 种 链 路 状态 路 由 协议 ，IS-IS 和 OSPF 一 样 ， 在 学 习 和 计算 路 由 之 前 ， 区 域 中 
的 路 由 器 首先 要 交换 链 路 状态 信息 , 最 终 所 有 路 由 器 的 链 路 状态 数据 库 达 到 一 致 的 状态 ， 
这 就 好 比 每 台 路 由 器 都 有 了 一 张 相 同 的 网 络 拓扑 。 然 后 ， 每 台 路 由 器 利用 自己 的 SPF 算 
法 计算 到 区 域内 任何 其 他 网 络 的 最 优 路 由 。 
路 由 器 产生 一 个 LSP 后 ， 然 后 从 所 有 运行 了 IS-IS 的 接口 扩散 出 去 ， 区 域 中 的 其 他 
路 由 器 从 一 个 接口 接收 到 LSP 后 ， 将 这 份 LSP 的 一 份 拷贝 装 入 L1 或 L2 的 数据 库 中 ， 
然后 再 将 这 份 LSP 从 其 他 所 有 运行 了 IS-IS 的 接口 继续 扩散 。 路 由 器 接收 到 一 条 LSP 时 ， 
处 理 流程 如 下 。 
。 IS-IS 路 由 器 接收 到 LSP， 在 数据 库 中 搜索 对 应 的 记录 。 若 没有 该 LSP， 则 将 其 
加 入 数据 库 ， 并 组 播 新 数据 库 内 容 。 
。 ”车 收 到 的 LSP 序列 号 大 于 本 地 LSP 的 序列 号 , 就 替换 为 新 报 文 ， 并 组 播 新 数据 
库 内 容 ; 若 收 到 的 LSP 序列 号 小 于 本 地 LSP 的 序列 号 , 就 向 入 端 接口 发 送 本 地 
LSP 报 文 。 
。 若 两 个 序列 号 相等 , 则 比较 Remaining Lifetime (剩余 生存 时 间 )。 若 收 到 的 LSP 
的 Remaining Lifetime 小 于 本 地 LSP 的 Remaining Lifetime， 就 替换 为 新 报 文 ， 
并 组 播 新 数据 库 内 容 ; 若 收 到 的 LSP 的 Remaining Lifetime 大 于 本 地 LSP 的 
Remaining Lifetime， 就 向 入 端 接口 发 送 本 地 LSP 报 文 。 
。 若 两 个 序列 号 和 Remaining Lifetime 都 相等 ， 则 比较 Checksum。 若 收 到 的 LSP 
的 Checksum 大 于 本 地 LSP 的 Checksum， 就 替换 为 新 报 文 ,并 组 播 新 数据 库 内 
容 ; 若 收 到 的 LSP 的 Checksum 小 于 本 地 LSP 的 Checksum， 就 向 入 端 接口 发 
送 本 地 LSP 报 文 。 
e ” 若 两 个 序列 号 、Remaining Lifetime 和 Checksum 都 相等 ， 则 不 转发 该 报 文 。 
4.3.3.2 SRM 和 SSN 标志 
SRM 和 SSN 标志 在 链 路 状态 信息 泛 洪 过 程 发 挥 了 重要 作用 。SRM 标志 用 来 跟踪 路 
由 器 从 一 个 接口 向 邻居 发 送 LSP 的 状态 。 在 广播 网 络 中 ，SSN 标志 用 来 跟踪 向 邻居 请 求 
完整 的 LSP 状态 ， 在 点 对 点 网 络 中 ，SSN 标志 用 来 跟踪 对 LSP 的 确认 状态 。 
SRM 和 SSN 标志 可 以 帮助 路 由 器 以 更 优化 的 方式 发 送 LSP 和 PSNP， 从 而 减少 带 
宽 和 CPU 的 开销 ,提高 链 路 状态 数据 库 的 同步 。 详 细 信息 会 分 别 在 广播 网 络 和 点 到 点 网 
络 数据 库 同步 的 内 容 中 介绍 。 
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4.3.3.3 ”计时 器 

IS-IS 协议 在 链 路 状态 信息 泛 洪 过 程 中 使 用 了 多 个 计时 器 , 这 些 计时 器 中 有 的 用 来 控 
制 LSP 刷新 的 间隔 ， 有 的 用 来 限制 LSP 产生 的 频率 等 。 在 不 稳定 的 网 络 中 ， 这 些 计时 器 
确保 了 LSP 泛 洪 不 会 带 来 过 大 的 网 络 资源 开销 ， 还 提供 了 保证 数据 库 完 整 性 的 方法 ， 这 
一 节 就 来 跟 大 家 解释 一 下 这 些 计时 器 的 使 用 及 在 华为 VRP 系统 中 的 配置 命令 。 

1. 最 大 生存 时 间 

最 大 生存 时 间 是 指 一 个 LSP 从 “生命 ”诞生 开始 直到 “老死 ”经 历 的 最 长 时 间 ， 
ISO10589 定义 的 LSP 最 大 生存 时 间 为 1200s。 一 个 LSP 的 “ 阳 寿 ”是 从 最 大 生存 时 间 向 
下 递减 的 ， 当 一 个 LSP 的 “ 阳 寿 ”等 于 0 时 ， 就 从 数据 库 中 清除 掉 了 。 在 华为 VRP 系 
统 中 ， 使 用 剩余 生存 时 间 来 标识 一 个 LSP 的 “ 阳 寿 ”正常 情况 下 ， 一 个 LSP 的 始 发 源 
路 由 器 会 定期 更 新 它 的 LSP 《LSP 更 新 时 间 在 下 文 介 绍 )， 路 由 器 接收 到 新 的 LSP 后 ， 
替换 掉 老 的 LSP 并 重 置 LSP 的 剩余 生存 时 间 到 最 大 生存 时 间 。 如 果 LSP 的 剩余 生存 时 
间 减 少 到 0 时 ， 还 没有 得 到 源 路 由 器 的 刷新 ， 那 么 这 个 LSP 就 会 被 清除 。 在 清除 之 前 路 
由 器 还 会 等 一 个 “ 零 阳 寿 生 存 时 间 ”(Zero Age Life Time)，ISO 10589 定义 的 零 阳 寿 生 
存 时 间 为 60s。 

在 华为 VRP 系统 中 可 以 通过 命令 timer lsp-max-age 来 修改 LSP 的 最 大 生存 时 间 , 华 
为 VRP 系统 支持 的 最 大 生存 时 间 的 范围 是 2~65535s。 一 般 情 况 下 ,不 建议 大 家 修改 LSP 
的 默认 最 大 生存 时 间 ， 因 为 网 络 中 的 路 由 器 使 用 的 LSP 最 大 生存 时 间 必 须 一 致 ， 如 果 路 
由 器 接收 到 一 个 LSP 的 剩余 生存 时 间 比 本 地 的 最 大 生存 时 间 还 要 大 , 那么 会 认为 该 LSP 
已 经 被 破坏 而 将 其 丢弃 ， 从 而 影响 网 络 的 稳定 性 。 

2. LSP 刷新 闻 隔 

LSP 始 发 路 由 器 在 LSP“ 阳 寿 ” 消 耗 尽 之 前 (LSP 剩余 生存 时 间 减 少 到 0 之 前 ), 每 
隔 一 定时 间 会 重新 产生 该 LSP 的 新 实例 ， 这 个 时 间 间 隔 默认 为 900s。 周 期 性 的 刷新 有 利 
于 网 络 中 所 有 路 由 器 的 链 路 状态 数据 库 的 完整 性 。 华 为 VRP 系统 修改 LSP 刷新 间隔 的 
命令 是 timer lsp-refresh。 适 当 将 刷新 时 间 间 隔 设置 大 些 ， 可 以 减少 网 络 资源 的 消耗 ， 但 
是 不 利用 网 络 的 收敛 。 

3. LSP 连续 生成 间隔 

LSP 连续 生成 间隔 是 指 路 由 器 连续 生成 两 个 LSP 的 时 间 间 隔 。 在 一 些 不 稳定 的 网 络 
中 ， 可 以 将 LSP 生成 间隔 设置 大 些 ， 比 如 网 络 中 有 条 链 路 持续 翻滚 的 话 ， 就 会 导致 路 由 
器 不 停 地 产生 新 的 LSP， 这 会 让 网 络 中 其 他 路 由 器 的 SPF 进程 频繁 进行 路 由 计算 ， 增 大 
了 CPU 开销 。 为 了 避免 LSP 频繁 生成 给 网 络 带 来 的 冲击 ，LSP 的 生成 存在 一 个 最 小 间 
隔 的 限制 ， 即 同一 个 LSP 在 最 小 间隔 内 不 允许 重复 生成 ， 一 般 缺 省 最 小 时 间 间 隔 为 5s， 
作 了 这 种 限制 后 ， 路 由 收敛 速度 受到 较 大 影响 。IS-IS 中 ， 当 本 地 路 由 信息 发 生变 化 时 ， 
路 由 器 需要 产生 新 的 LSP 来 通告 这 些 变化 。 当 本 地 路 由 信息 的 变化 比较 频繁 时 ， 立 即 生 
成 新 的 LSP 会 占用 大 量 的 系统 资源 。 男 一 方面 ， 如 果 产 生 LSP 的 延迟 时 间 过 长 ， 则 本 地 
路 由 信息 的 变化 无 法 及 时 通告 给 邻居 ， 导 致 网 络 的 收敛 速度 变 慢 。 可 以 使 用 timer 
lsp-generation 命令 来 设置 产生 LSP〈 这 些 LSP 具有 相同 的 LSPID) 的 延迟 时 间 。 

4. LSP 传输 间隔 

LSP 传输 间隔 是 指 连 续 传 送 两 个 LSP 的 间隔 ， 缺 省 情况 下 , 接口 上 发 送 LSP 的 最 小 
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时 间 间 隔 为 Soms。 如 果 邻 居 路 由 器 的 资源 有 限 ， 其 他 路 由 器 向 其 传递 一 个 LSP 后 ， 它 
无 法 按时 确认 的 话 ， 其 他 路 由 器 就 会 重 传 LSP， 这 时 可 能 使 情况 更 加 恶化 ， 为 了 保护 这 
样 的 邻居 ，LSP 传输 间隔 就 得 设置 大 些 。 

5. CSNP 发 送 间隔 

在 广播 网 络 中 ， 为 维护 链 路 状态 数据 库 的 完整 性 ，DIS 周期 性 地 发 送 CSNP， 默 认 
间隔 是 10s。 华 为 VRP 系统 可 以 通过 接口 命令 isis timer csnp 来 修改 默认 值 。 这 个 值 设 置 
得 小 些 ， 有 利于 网 络 的 快速 收敛 ， 但 同时 增加 了 带宽 的 开销 。 如 果 一 个 网 络 在 比较 稳定 
的 情况 下 ， 可 以 适当 增 大 该 值 ， 以 减少 对 带宽 的 开销 。 

以 上 这 些 计 时 器 提供 了 一 些 优 化 和 控制 链 路 状态 信息 泛 洪 的 方法 。 一 般 情况 下 ， 
不 建议 修改 这 些 计时 器 的 默认 值 ， 除 非 修改 后 能 预测 相应 的 结果 。 如 果 网 络 规模 大 ， 
加 快 收敛 速度 的 办 法 就 是 升级 路 由 器 。 另 外 ， 在 网 络 规划 时 ， 一 定 要 保证 网 络 的 高 可 
用 性 。 


4.3.4 ” 链 路 状态 数据 库 同步 过 程 


4.3.4.1 广播 网 络 中 的 同步 过 程 

在 广播 网 络 中 ， 路 由 器 在 邻接 关系 初始 化 后 ， 首 先 泛 洪 自己 的 LSP，L1 的 LSP 发 
送 到 组 播 地 址 01-80-C2-00-00-14 (L1 IS), L2 的 LSP 发 送 到 组 播 地 址 01-80-C2-00-00-15 
(L2 IS)。 其 他 Ll 或 L2 邻居 接收 LSP 后 ， 并 不 需要 确认 ， 因 此 ， 在 广播 网 络 中 ，LSP 
的 泛 洪 是 不 可 靠 的 。 这 样 的 话 ， 对 于 LSP 的 始 发 路 由 器 来 说 ， 如 何 确 保 所 有 邻居 都 接收 
到 了 自己 的 LSP 呢 ? IS-IS 协议 使 用 DIS 周期 性 地 发 送 CSNP 来 保证 广播 网 络 中 链 路 状 
态 数据 库 的 同步 。 

我 们 在 前 面 介绍 到 , DIS 是 IS-IS 协议 用 来 在 广播 网 络 中 控制 数据 库 信 息 的 泛 洪 和 同 
步 的 。 在 广播 网 络 中 ， 路 由 器 都 与 DIS 建立 了 邻接 关系 (当然 ， 所 有 路 由 器 之 间 都 建立 
了 邻接 关系 )， 这 就 意味 着 ，DIS 的 数据 库 拥有 其 他 所 有 路 由 器 的 数据 库 信 息 ， 基 于 这 个 
前 提 , DIS 使 用 一 个 或 多 个 CSNP 描述 自己 整个 链 路 状态 数据 库 信 息 ; 然后 周期 性 地 (每 
隔 10 秒 ) 扩散 到 网 络 中 。 其 他 路 由 器 接收 到 DIS 的 CSNP 后 ， 与 自己 的 数据 库 中 的 内 
容 作 比较 ， 比 较 后 会 发 现 自己 缺失 或 较 新 的 LSP， 然 后 发 送 PSNP 来 请 求 相 应 的 LSP。 
网 络 中 的 DIS 或 具有 这 份 LSP 的 邻居 收 到 请 求 后 就 会 回应 相应 的 LSP。 在 广播 链 路 上 ， 
发 送 LSP 之 前 会 在 接口 上 先 设 置 一 个 SRM 标志 ， 待 发 送 完 LSP 后 立刻 清除 标志 。 如 果 
路 由 器 查看 DIS 发 过 来 的 CSNP 内 容 后 ， 发 现 自己 数据 库 中 具有 的 LSP 而 DIS 没有 或 
DIS 具有 的 更 老 ， 这 时 它 会 主动 将 自己 的 LSP 泛 洪 出 来 。 通 过 上 述 过 程 ， 保 证 了 广播 网 
络 中 所 有 路 由 器 的 数据 库 都 是 一 致 的 。 在 一 个 广播 网 络 中 有 可 能 存在 多 台 路 由 器 ， 在 链 
路 状态 数据 库 的 同步 过 程 中 ， 如 果 对 每 条 接收 的 LSP 都 要 给 予 确认 的 话 ， 这 就 需要 发 送 
端 路 由 器 跟踪 其 他 所 有 邻居 的 接收 情况 ， 从 而 让 整个 过 程 变 得 更 复杂 。 虽 然 DIS 周期 性 
泛 洪 CSNP 会 带 来 一 定 的 带宽 开销 ， 但 是 这 个 方法 相对 来 说 简单 得 多 。 

图 4-25 所 示 为 广播 网 络 中 链 路 状态 信息 同步 的 整个 过 程 。 

如 图 4-25 所 示 ， 这 里 假设 Rl 和 R2 已 经 正常 运行 并 建立 好 了 邻接 关系 ，R2 被 选 为 
DIS; R3 后 面 接 入 该 网 络 ， 并 假设 它 与 R1 和 R2 都 已 建立 邻接 关系 ,数据 库 的 同步 过 程 
如 下 。 
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图 4-25 广播 网 络 中 链 路 状态 信息 同步 过 程 


ee R3 与 R1、R2 建立 邻居 关系 之 后 ， 它 将 自己 的 LSP 〈R3.00-00) 发 送 到 组 播 地 
址 (L1: 01-80-C2-00-00-14; L2: 01-80-C2-00-00-15)。 这 样 R1 和 R2 都 将 收 
到 该 LSP。 

。 R2 (DIS) 收 到 R3 的 LSP 后 将 其 加 入 到 LSDB 数据 库 中 ， 并 等 待 CSNP 报 文 
定时 器 超时 (DIS 每 隔 10s 发 送 CSNP 报 文 ) 并 发 送 CSNP 报 文 ， 进 行 该 网 络 
内 的 LSDB 同步 。 

e  R3 收 到 DIS 发 来 的 CSNP 报 文 (里 面 描述 了 4 个 LSP)， 对 比 自己 的 LSDB 数 
据 库 ， 发 现 自己 的 数据 库 并 没有 这 4 个 LSP， 接 着 它 会 向 DIS 发 送 PSNP 报 文 
请 求 这 4 个 LSP。 

。 DIS 收 到 该 PSNP 报 文 请 求 后 向 R3 发 送 对 应 的 LSP。 

4.3.4.2 P2P 网 络 中 的 同步 过 程 

跟 广 播 网 络 不 一 样 ，IS-IS 协议 在 P2P 网 络 中 的 数据 库 同 步 过 程 中 ， 接 收 到 邻居 的 
LSP 后 是 需要 给 予 确认 的 《可 靠 方式 )。 因 为 在 P2P 链 路 上 ， 每 台 路 由 器 只 有 一 个 邻居 ， 
确认 不 会 带 来 过 多 的 资源 开销 。 

在 P2P 网 络 中 ， 当 两 台 路 由 器 建立 好 邻接 关系 后 ， 首 先 交 换 CSNP。 跟 前 文 介绍 的 
一 样 ， 路 由 器 通过 比较 接收 到 的 CSNP 的 内 容 ， 确 定 本 地 数据 库 缺 失 的 LSP， 并 根据 前 
面 介绍 的 LSP 的 新 旧 比 较 规则 ， 比 较 自 己 的 数据 库 和 邻居 数据 库 中 LSP 的 新 旧 ; 对 于 缺 
少 或 过 时 的 LSP， 路 由 器 会 发 出 PSNP 进行 请 求 ， 并 且 在 收 到 邻居 回应 过 来 的 LSP 后 使 
用 PSNP 确认 ; 如 果 路 由 器 发 现 邻 居 路 由 器 有 缺失 或 拥有 更 旧 的 LSP， 它 会 主动 将 LSP 
发 送 给 邻居 。 如 果 发 送 的 LSP 没有 得 到 邻居 的 PSNP 确认 ， 在 重 传 间隔 时 间 超 时 后 ， 路 
由 器 会 重 传 先前 的 LSP， 直 到 接收 到 邻居 的 PSNP 确认 为 止 。 在 P2P 链 路 上 接收 到 一 个 
LSP 后 , 接口 上 会 设置 一 个 SSN 标志 表示 需要 向 该 接口 发 送 PSNP 确认 , 接收 到 确认 后 ， 
SSN 标志 就 会 被 清除 ; 同时 ， 如 果 需 要 将 LSP 拷贝 从 一 个 接口 发 送出 去 ， 也 会 在 该 接口 
上 设置 SRM 标志 ， 发 送 后 标志 立刻 被 清除 。 

如 图 4-26 所 示 , R2 与 R1、R3 通过 点 对 点 链 路 建立 连接 , 以 R1 先 发 送 自己 的 CSNP 
为 例 ， 同 步 过 程 如 下 : 
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4-26 了 P2P 网 络 中 的 同步 过 程 


e ”R2 接收 到 Rl 的 CSNP (描述 了 一 条 LSP: R1.00-00) 后 , 发 送 PSNP 进行 请 求 ; 
e Rl 收 到 请 求 后 ， 将 相应 的 LSP 拷贝 发 送 到 网 络 中 ; 

e。 ”R2 接收 到 请 求 的 LSP 后 ， 将 其 拷贝 存 入 数据 库 中 ， 并 且 在 接口 2 设置 SSN 标 
志 ， 在 接口 3 设置 SRM 标志 ; 

R2 向 R3 转发 这 个 LSP 的 拷贝 并 向 R1 发 送 PSNP 进行 确认 ; 

R2 清除 接口 上 的 SSN 标志 ; 

R3 从 R2 接收 到 这 个 LSP 后 , 存 入 数据 库 中 , 并 同时 在 接口 4 上 设置 SSN 标志 ; 
R4 向 R2 发 送 PSNP 确认 ， 并 同时 清除 接口 4 上 的 SSN 标志 ; 

R2 接收 到 R3 的 PSNP 确认 后 ， 清 除 接口 3 的 SRM 标志 。 


4.4 LSP 分 片 扩展 ( Fragmentation ) 


4.4.1 原理 概述 


一 般 情况 下 ， 路 由 器 使 用 LSP 来 描述 它 所 有 的 链 路 状态 信息 。 如 果 链 路 状态 信息 过 
于 庞大 ， 路 由 器 就 得 生成 多 个 LSP 分 片 ， 用 来 携带 全 部 的 链 路 状态 信息 。 由 前 文 内 容 可 
知 ,每 个 LSP 的 LSP ID 由 产生 该 LSP 的 源 路 由 器 的 System-ID 和 伪 节 点 的 ID( 普 通 LSP 
中 该 值 为 0, 伪 节 点 LSP 中 该 值 为 非 0)、LSPNumber (LSP 分 片 号 ) 组 合 起 来 唯一 标识 ， 
由 于 LSPNumber 字段 的 长 度 是 1Byte， 因 此 ，IS-IS 路 由 器 可 产生 的 分 片 数 最 大 为 256， 
携带 的 信息 量 有 限 。 在 RFC3786 中 规定 ，IS-IS 可 以 配置 虚拟 的 System-ID， 并 生成 虚拟 
IS-IS 的 LSP 报 文 来 携带 路 由 等 信息 。 

IS-IS LSP 分 片 扩展 特性 可 使 IS-IS 路 由 器 生成 更 多 的 LSP 分 片 , 通过 为 路 由 器 配置 
附加 的 虚拟 系统 , 每 个 虚拟 系统 都 可 生成 256 个 LSP 分 片 ( 最 多 可 配置 50 个 虚拟 系统 )， 
使 得 IS-IS 路 由 器 可 最 多 生成 13056 个 LSP 分 片 。 


4.4.2 ”基本 概念 
。 ”初始 系统 (Originating System): 初始 系统 是 实际 运行 IS-IS 协议 的 路 由 器 。 允 
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许 一 个 单独 的 IS-IS 进程 像 多 个 虚拟 路 由 器 一 样 发 布 LSP， 而 “Originating 
System” 指 的 是 那个 “真正 ”的 IS-IS 进程 。 

。 系统 ID (Normal System-ID ): 初始 系统 的 系统 ID。 

。 ”虚拟 系统 (Virtual System): 由 附加 系统 ID 标识 的 系统 ， 用 来 生成 扩展 LSP 分 
片 。 这 些 分 片 在 其 LSP ID 中 携带 附加 系统 ID。 

e ”附加 系统 ID (Additional System-ID ): 虚拟 系统 的 系统 ID， 由 网 络 管理 员 统 一 
分 配 。 每 个 附加 系统 ID 都 允许 生成 256 个 扩展 的 LSP 分 片 。 


4.4.3 LSP 分 片 方式 


1. Mode-l 
如 果 网 络 中 存在 不 支持 LSP 分 片 扩展 特性 的 路 由 器 , 使 用 Mode-1 的 分 片 扩展 方式 。 
这 种 方式 是 在 初始 系统 发 布 的 LSP 中 携带 了 到 每 个 虚拟 系统 的 链 路 信息 ; 同时 ， 虚 拟 系 
统 发 布 的 LSP 也 包含 了 到 初始 系统 的 链 路 信息 ,并 且 虚 拟 系统 也 参与 路 由 SPF 计算 。 这 
样 ， 虚 拟 系统 看 起 来 就 像 是 跟 初始 系统 相连 的 真实 路 由 器 是 一 样 的 。 
虚拟 系统 的 LSP 中 包含 和 原 LSP 中 相同 的 区 域 地 址 和 Overload Bit。 如 果 还 有 其 他 
特性 的 TLV， 也 必须 保持 一 致 。 
虚拟 系统 所 携带 的 邻居 信息 指向 初始 系统 ，metric 为 最 大 值 〈 窜 度量 情况 下 最 大 
值 为 64) 减 1; 初始 系统 所 携带 的 邻居 信息 指向 虚拟 系统 ，metric 必须 为 0。 这 样 
就 保证 了 其 他 路 由 器 在 进行 路 由 计算 的 时 候 ， 虚 拟 系统 一 定 会 成 为 初始 系统 的 下 游 
如 图 4-27 所 示 ，R2 是 不 支持 分 片 扩展 的 路 由 器 ，R1 设置 为 mode-1 的 分 片 扩 展 ， 
R1-1 和 R1-2 是 R1 的 虚拟 系统 ，R1 将 一 部 一 RI1-1 
分 路 由 信息 放 入 R1-1 和 R1-2 的 LSP 报 文中 号 .者 
向 外 发 送 。R2 收 到 R1、R1-1 和 R1-2 的 报 文 。 &&2 .3 
时 ， 认 为 对 端 有 三 台独 立 的 路 由 器 ， 并 进行 
正常 的 路 由 计算 。 同 时 ，R1 到 RI1-1 和 R1-2 不 支持 分 片 ” [一 支持 分 片 “、、、 R12 
的 开销 都 是 0， 所 以 ，R2 到 R1 的 路 由 开销 Te 
全 呈 了 2 到 RlL 路 由 开销 但 部 相 汝 。 图 4-27 Mode-1 LSP 分 片 扩展 
2. Mode-2 
Mode-2 的 方式 用 于 网 络 中 所 有 路 由 器 都 支持 LSP 分 片 扩展 特性 的 情况 。 在 该 模式 
下 , 虚拟 系统 不 参与 路 由 SPF 计算 ， 网 络 中 所 有 路 由 器 都 知道 虚拟 系统 生成 的 LSP 实际 
属于 初始 系统 。 
如 果 R2 支持 分 片 扩 展 , 并 将 R1 设置 为 Mode-2 的 分 片 扩展 后 , R1 将 一 部 分 路 由 信 
息 放 入 到 R1-1 和 R1-2 的 LSP 报 文中 向 外 发 送 (R1-1 和 R1-2 是 内 部 虚拟 节点 )。 当 R2 
CC RI 收 到 R1-1 和 R1-2 的 LSP 时 , 通过 IS Alias ID TLV 
知道 它们 的 初始 系统 是 R1， 则 把 R1-1、R1-2 所 发 
支持 分 片 支持 分 片 ” 布 的 信息 都 视 为 R1 的 信息 , 所 以 在 R2 计算 的 拓扑 
图 4-28 ”Mode-2 LSP 分 片 扩展 中 是 不 会 存在 R1-1 和 R1-2 的 ， 如 图 4-28 所 示 。 


R2 
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4.5 1S-lS 的 收敛 和 扩展 特性 


目前 ， 国 内 电信 运营 商 在 其 卫 骨干 网 中 大 量 使 用 IS-IS 协议 ， 在 这 种 规模 较 大 的 网 
络 中 ，IS-IS 的 收敛 速度 是 很 重要 的 ， 如 果 网 络 发 生 故障 ， 而 IS-IS 协议 收敛 速度 太 慢 的 
话 ， 直 接 会 影响 到 业务 的 响应 速度 ， 所 以 IS-IS 采用 了 以 下 手段 来 提高 收敛 速度 : 

。 增 量 SPF 算法 (I-SPF); 

。 ”部 分 路 由 计算 (PRC); 

e 智能 定时 器 ; 

。 LSP 快速 扩散 。 

4.5.1 增 量 SPF 算法 (I-SPF ) 


对 于 传统 的 Dijkstra SPF 算法 来 说 ， 网 络 拓扑 越 复杂 ，SPF 算法 的 资源 开销 就 越 大 。 
如 果 网 络 拓扑 发 生变 化 ， 比 如 网 络 中 加 入 了 一 台新 路 由 器 ， 或 者 是 某 个 链 路 故障 ， 这 些 
事件 都 会 导致 网 络 中 的 所 有 路 由 器 进行 一 次 完整 的 SPF 计算 过 程 ， 也 就 是 需要 计算 所 有 
节点 的 SPT (最 短路 径 树 )。 如 果 网 络 故 障 频繁 ，SPE 计算 会 影响 所 有 的 路 由 器 的 性 能 
对 整个 网 络 的 稳定 性 产生 冲击 。 

针对 上 述 情况 , 增 量 SPF 算法 对 传统 的 SPF 算法 进行 了 改进 。 所 有 节点 只 是 在 首次 
进行 完整 的 SPF 计算 ,计算 出 并 保持 好 以 自己 为 根 的 SPT。 之 后 如 果 网 络 发 生变 化 ， 根 
据 情 况 只 需要 进行 增 量 SPF 算法 就 行 , 从 而 避免 了 节点 重复 进行 SPF 计算 而 消耗 过 多 的 
网 络 资源 ， 具 体 包 括 以 下 几 种 情况 。 

1， 第 一 种 情况 

图 4-29 所 示 的 右边 显示 了 RI1 在 首次 进行 SPF 计算 后 形成 的 SPT。 网 络 运行 过 程 中 
如 果 有 拓扑 变化 ， 比 如 向 网 络 中 增加 或 删除 一 台新 的 路 由 器 ， 网 络 中 的 节点 只 是 将 这 台 
新 的 路 由 器 作为 叶子 节点 添加 到 现 有 的 SPT， 只 需要 很 简单 的 SPF 计算 (类 似 距离 矢量 
路 由 协议 一 样 的 计算 )， 而 不 需要 所 有 节点 重新 进行 一 次 完整 的 SPF 计算 。 如 图 4-30 所 
示 ， 当 R7 作为 新 节点 接 入 网 络 中 时 ，R1 不 需要 重新 计算 到 其 他 节点 的 SPT， 而 只 是 将 
R7 作为 叶子 添加 到 自己 的 SPT 上 就 行 了 。 

2. 第 二 种 情况 

有 时 候 链 路 出 现 故障 会 导致 节点 重新 进行 SPF 计算 , 但 是 出 现 故 障 的 链 路 如 果 不 在 
SPT 上 , 那么 对 节点 是 没有 影响 的 , 比如 在 图 4-29 中 , 如 果 R3-R4 之 间 的 链 路 出 现 故 障 ， 
由 于 这 条 链 路 不 在 R1 的 SPT 上， 所 以 RI1 不 需要 SPF 计算 。 如 果 是 链 路 的 开销 变化 ， 
有 可 能 会 导致 路 由 器 去 往 其 他 目标 网 络 的 最 优 路 径 发 生变 化 ， 这 时 需要 进行 SPF 计算 。 

3. 第 三 种 情况 

最 后 一 种 情况 就 是 当 SPT 上 的 路 径 出 现 故障 后 ， 需 要 重新 计算 到 下 游 节点 的 路 径 ， 
那些 不 受 影响 的 节点 是 不 需要 进行 SPF 计算 的 ， 比 如 在 图 4-29 的 拓扑 中 ， 如 果 R2 到 
R4 之 间 的 路 径 发 生 故 障 , 那么 R2 只 需要 重新 计算 到 R4 和 Rs 的 最 短路 径 ， 到 其 他 节点 
的 最 短路 径 不 需要 重新 计算 。 
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AR1 的 SPT 
图 4-29 SPF 计算 





R7 作 为 叶子 直接 加 入 到 现 有 的 SPT 
图 4-30 LSPF 计算 


4.5.2 ”部 分 路 由 计算 (PRC ) 


当 网 络 中 增加 一 条 末梢 链 路 (Stub Link), 或 者 网 络 中 的 一 个 子 网 网 段 发 生变 化 ， 这 
些 情况 并 未 导致 整个 拓扑 的 改变 ， 所 以 网 络 中 的 节点 不 需要 进行 SPF 计算 ， 而 只 需要 像 
距离 矢量 路 由 协议 那样 ， 将 新 的 链 路 对 应 用 的 路 由 及 metric 信息 添加 进 路 由 表 就 行 ， 从 
而 节省 了 设备 的 开销 ， 这 就 是 部 分 路 由 计算 。 

部 分 路 由 计算 的 特性 起 初 是 在 IS-IS 定义 的 ，OSPFv2 后 来 也 引入 了 该 特性 ， 但 跟 
IS-IS 的 部 分 路 由 计算 特性 还 是 有 些 区 别 , 本 节 后 面 就 会 介绍 ,在 前 文中 我 们 学 习 到 , IS-IS 
的 LSP 是 基于 TLV 结构 的 ， 不 同 的 信息 通过 不 同 的 TLV 来 传递 ， 比 如 对 于 一 台 路 由 器 
的 邻居 和 网 络 前 缀 信息 , 分 别 使 用 了 IS Reachability TLV 和 IP Reachability TLV 来 承载 和 
传递 。 当 一 台 路 由 器 接收 到 一 个 只 有 IP Areachability 信息 的 LSP 后， 将 其 中 的 网 络 前 级 
信息 作为 路 由 安装 进 路 由 表 即 可 ， 不 需要 重新 计算 SPF。 

起 初 因为 JS-IS 的 部 分 路 由 计算 特性 ， 而 使 得 IS-IS 协议 在 单 区 域 中 的 扩展 性 比 
OSPFv2 更 好 ,因为 OSPF 将 网 络 可 达 性 信息 和 拓扑 信息 都 放 在 Type-l 的 LSA 中 进行 传 
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递 ,而 且 OSPFv2 LSA 不 是 基于 TLV 的 结构 ， 所 以 这 两 种 信息 无 法 分 开放 置 和 传递 。 这 
样 的 话 ， 网 络 中 不 论 是 节点 或 链 路 发 生变 化 ， 还 是 增加 一 条 新 的 末梢 链 路 ，OSPFv2 节 
点 都 会 进行 完整 的 SPF 计算 。 在 OSPFv2 中 ， 只 有 LSA3/4/5/7 才 会 进行 部 分 路 由 计算 。 


4.5.3 智能 定时 器 


在 一 个 不 稳定 的 网 络 中 ， 网 络 频繁 发 生变 化 时 ，IS-IS 协议 会 频繁 地 产生 新 的 LSP 
和 进行 SPF 计算 ， 这 会 消耗 设备 大 量 的 CPU 和 内 存 资源 ， 从 而 影响 到 设备 的 业务 转发 。 
智能 定时 器 就 是 在 网 络 频繁 发 生变 化 时 ， 减 少 对 网 络 的 性 能 和 稳定 性 的 冲击 ， 它 包括 以 
下 两 种 类 型 。 

1. LSP 智能 定时 器 

在 前 面 的 4.3.3.3 小 节 我 们 介绍 到 了 IS-IS 协议 的 几 个 重要 计时 器 ， 其 中 就 包括 LSP 
智能 定时 器 ， 这 里 再 补充 说 明 一 下 这 个 计时 器 的 作用 。 前 面 讲 到 ，LSP 的 生成 存在 一 个 
最 小 间隔 的 限制 ， 一 般 缺 省 最 小 时 间 间 隔 为 5s， 做 了 这 种 限制 后 ， 如 果 在 网 络 发 生变 化 
时 ， 因 为 这 个 时 间 的 限制 ， 而 不 能 快速 扩散 新 的 LSP， 将 导致 收敛 速度 受到 影响 ， 如 果 
网 络 变化 比较 频繁 时 ， 不断 地 生成 新 的 LSP 又 会 占用 大 量 的 系统 资源 。LSP 智能 定时 器 
就 是 根据 网 络 的 稳定 性 情况 确保 LSP 的 生成 间隔 趋 于 合理 , 同时 满足 快速 收敛 和 低 CPU 
占用 率 的 要 求 。 使 用 LSP 智能 定时 器 后 ， 路 由 设备 可 以 对 突 发 事件 〈 如 接口 Up/Down) 
快速 响应 ， 加 快 网 络 的 收敛 速度 。 同 时 ， 当 网 络 变化 频繁 时 ， 智 能 定时 器 的 间隔 时 间 会 
自动 延长 ， 避 免 过 度 占用 CPU 资源 。 

2. SPF 智能 定时 器 

缺 省 情况 下 ，IS-IS 协议 使 用 固定 的 SPF 计算 间隔 ， 这 个 间隔 默认 最 大 值 为 gs。 当 
网 络 频繁 发 生变 化 时 ， 可 以 将 计算 间隔 时 间 调 小 以 加 快 收敛 速度 ， 但 这 样 会 使 得 SPF 消 
耗 系统 大 量 的 CPU 资源 ; 如 果 将 计算 间隔 调 大 ， 又 会 影响 收敛 速度 。SPF 智能 定时 器 能 
使 SPF 计算 更 好 地 适应 网 络 的 需求 。 

在 使 用 SPF 智能 定时 器 后 ， 路 由 器 刚 开 始 进行 SPF 计算 时 ， 两 次 计算 的 间隔 时 间 较 
小 ， 以 保证 IS-IS 路 由 的 收敛 速度 。 之 后 随 着 整个 IS-IS 网 络 的 振荡 频率 加 快 ， 可 以 适当 
地 延长 两 次 SPF 计算 的 间隔 时 间 ， 从 而 减少 不 必要 的 资源 消耗 。 

华为 VRP 系统 可 以 使 用 以 下 命令 启用 和 设置 SPF 智能 定时 器 : timer spf max-interval 
[ init-interval [ incr-interval ] ]。 其 中 ，max-interval 表示 最 大 SPF 计算 间隔 ，init-interval 
表示 初次 SPF 计算 的 延迟 间隔 ，incr-interval 表示 第 二 次 SPF 计算 的 间隔 。 在 华为 VRP 
系统 中 SPF 智能 定时 器 的 变化 规律 如 下 。 

(1) 初次 进行 SPF 计算 的 延迟 时 间 为 init-interval; 第 二 次 进行 SPF 计算 的 延迟 时 间 
为 incr-interval。 随 后 ， 每 变化 一 次 ，SPF 计算 的 延迟 时 间 增 大 为 前 一 次 的 两 倍 ， 直 到 
max-interval 。 稳 定 在 max-interval 三 次 或 者 IS-IS 进程 被 重启 ， 延 迟 时 间 又 降 回 到 
init-interval。 

(2) 在 不 使 用 incr-interval 的 情况 下 ， 初 次 进行 SPF 计算 用 init-interval 作为 延迟 时 
间 ， 随 后 都 是 使 用 max-interval 作为 延迟 时 间 。 稳 定 在 max-interval 三 次 或 者 IS-IS 进程 
被 重启 ， 延 迟 时 间 又 降 回 到 init-interval。 

(3) 在 只 使 用 max-interval 的 情况 下 ， 智 能 定时 器 退化 为 一 般 的 一 次 性 触发 定时 器 。 
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4.5.4 LSP 的 快速 扩散 


正常 情况 下 ， 路 由 器 从 一 个 接口 收 到 一 个 新 的 LSP 后 , 会 将 其 拷贝 安装 进 数 据 库 并 
进行 SPF 计算 ， 随 后 再 将 这 个 新 的 LSP 从 其 他 IS-IS 接口 泛 洪 出 去 。IS-IS 协议 一 般 是 采 
用 周期 性 的 方式 泛 洪 LSP， 缺 省 情况 下 ， 接 口 发 送 LSP 的 最 小 间隔 时 间 是 50ms， 每 次 
最 多 发 送 10 个 LSP。 当 网 络 频繁 发 生变 化 时 ， 由 于 要 等 待 计时 器 到 期 才能 泛 洪 新 的 LSP 
出 去 ， 这 就 拖 慢 了 网 络 的 收敛 速度 。LSP 的 快速 扩散 特性 改进 了 这 种 方式 ， 当 接收 到 的 
新 的 LSP 而 导致 SPF 计算 时 ， 不 需要 等 到 周期 时 间 到 期 ， 按 规定 数目 直接 将 这 些 LSP 
泛 洪 出 去 ， 这 就 加 快 了 链 路 状态 数据 库 的 同步 过 程 ， 提 高 了 网 络 的 收敛 速度 。 华 为 VRP 
系统 中 可 以 使 用 命令 flah-flood 启用 和 配置 LSP 的 快速 扩散 功能 。 


4.5.5 ” ISIS 认证 


IS-IS 认证 可 以 确保 路 由 协议 免 受 攻击 ， 有 具体 是 通过 在 协议 报 文 插入 认证 信息 ， 路 由 
器 接收 到 带 有 认证 信息 的 协议 报 文 后 ， 可 以 辨别 报 文 的 发 送 设备 是 否 合法 ， 从 而 避免 未 
经 授权 的 设备 接 入 网 络 而 导致 网 络 中 的 路 由 信息 受到 破坏 。 但 是 ， 使 能 认证 后 的 协议 报 
文 是 未 经 加 密 的 ， 也 就 是 说 可 以 通过 网 络 被 窃取 并 被 读 取 到 里 面 的 内 容 ， 所 以 使 能 认证 
后 ， 只 能 确保 协议 报 文 源 的 合法 性 ， 而 无 法 保障 协议 报 文 信息 的 机 密 性 。 
根据 报 文 种 类 ，IS-IS 支持 以 下 三 种 认证 类 型 。 
(1) 接口 认证 : 接口 认证 只 对 Level-1 和 Level-2 的 Hello 报 文 进行 认证 ， 保 障 了 同 
一 链 路 上 建立 邻居 关系 的 安全 性 。 使 能 了 接口 认证 的 IS-IS 接口 ， 会 通过 认证 TLV (类 
型 10) 在 发 送 的 Hello 报 文中 携带 本 地 的 认证 信息 ; 使 能 了 认证 的 IS-IS 接口 ， 可 以 根 
据 配置 对 接收 到 带 有 认证 信息 的 Hello 报 文 进 行 认证 信息 检查 或 不 检查 。 
(2) 区 域 认 证 : 区 域 认证 是 针对 L1 区 域 中 的 SNP 和 LSP 报 文 进行 认证 的 ， 该 认证 
从 整个 区 域 范围 保障 路 由 信息 交换 的 安全 性 。 
(3) 路 由 域 认 证 : 路 由 域 认证 是 针对 L2 区 域 的 SNP 和 LSP 报 文 进行 认证 的 ， 该 认 
证 从 整个 路 由 域 范围 保障 了 路 由 信息 交换 的 安全 性 。 
对 于 区 域 和 路 由 域 认 证 ， 可 以 根据 情况 ， 在 接口 的 发 送 和 接收 两 个 方向 上 ， 分 别针 
对 SNP 和 LSP 两 报 文 进 行 认证 的 设置 。 
。 配置 本 地 发 送 的 LSP 报 文 和 SNP 报 文 都 携带 认证 TLV， 而 且 对 收 到 的 LSP 报 
文 和 SNP 报 文 都 进行 认证 检查 。 
e 配置 本 地 发 送 的 LSP 报 文 携带 认证 TLV， 而 且 对 收 到 的 LSP 报 文 进行 认证 检 
查 ;， 配置 发 送 的 SNP 报 文 携带 认证 TLV， 但 不 对 收 到 的 SNP 报 文 进行 检查 。 
。 配置 本 地 发 送 的 LSP 报 文 携 带 认 证 TLV， 对 收 到 的 LSP 报 文 进行 认证 检查 ; 
发 送 的 SNP 报 文 不 携带 认证 TLV， 也 不 对 收 到 的 SNP 报 文 进行 认证 检查 。 
。 ”配置 本 地 发 送 的 LSP 报 文 和 SNP 报 文 都 携带 认证 TLV， 但 是 对 收 到 的 LSP 报 
文 和 SNP 报 文 都 不 进行 认证 检查 。 
根据 认证 密码 在 发 送 过程 是 否 加 密 ， 每 一 种 IS-IS 报 文 可 以 使 用 以 下 三 种 认证 方式 。 
(1) 明文 认证 : 最 简单 的 认证 方式 ， 将 配置 的 密码 直接 插入 到 报 文中 ， 这 种 认证 方 
式 很 容易 被 非法 人 员 截 获 到 密码 ， 安 全 性 不 够 。 如 图 4-31 所 示 是 一 个 接口 上 启用 明文 认 
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证 后 发 出 的 Hello 包 格 式 , 可 以 看 到 明文 认证 对 应 的 认证 类 型 为 1, 并 且 密 码 是 用 明文 方 
式 发 送 的 。 


GB ISIS HELLO 

Circuit type : Level 1 and 2, reserved(O0x00 == 0) 
System-ID {Sender of PDU} : 0000.0000.0001 
Holding timer: 30 
PDU length: 1497 
Priority : 64, reserved(0x00 == 0) 
System-ID {Designated Is} : 0000.0000.0001.01 

因 Area address(es) (4) 

困 IP Interface address(es) (4) 

困 Protocols Supported (1) 


Authentication (7) 
clear text (1), password (length 6) = huawei 


田 Restart Signaling (3 
田 Multi Topology (2) 


4-31 携带 明文 认证 信息 的 Hello 报 文 


(2) MD5 认证 : 通过 将 配置 的 密码 进行 MD5 算法 之 后 再 加 入 报 文中 ， 这 样 提 高 了 
密码 的 安全 性 ， 图 4-32 显示 了 一 个 Ll 区 域 启用 了 MD5 认证 后 的 LSP 报 文 格式 ， 可 以 
看 到 MD5 认证 对 应 的 类 型 值 为 54， 而 且 密 码 已 经 被 加 密 。 


BISO 10589 ISIS Link state Protocol Data Unit 
PDU length: 97 
Remaining lifetime: 1199 
LsP-ID: 0000.0000.0001.00-00 
sequence number: Ox00000009 
田 Checksum: Oxd878 [correct] 
Type block(O0x03): Partition Repair:0, Attached bits:0, Overload bit:0, Is type:3 
由 Protocols supported (1) 
因 Area address(es) (4) 








国 Extended IS reachability (11) 
IP Interface address(es) (8) 
国 Extended IP Reachability (17 
BB Authentication (17) 
hmac-md5 (54), password (length 16) = Ox46e3e5a46f1190e22f7962ffaa940dd1 





图 4-32 ”携带 MD5 认证 信息 的 LSP 


(3) Keychain 认证 : 使 用 Keychain 可 以 配置 密码 的 有 效 时 间 ， 从 而 实现 密码 的 动态 
更 换 。 密 码 的 作用 时 间 有 两 种 模式 : 绝对 时 间 和 周期 时 间 。 随 时 间 变 化 的 密码 可 以 进 一 
步 提升 网 络 的 安全 性 。 华 为 支持 Keychain 的 认证 算法 有 明文 、MD5、SHA-1 三 种 。 


4.5.6 IS-IS 度量 及 扩展 


ISO 10589 为 IS-IS 协议 定义 了 以 下 四 种 度量 。 
。 默认 度量 : 就 是 我 们 常见 的 度量 类 型 ， 一 般 跟 接 口 带 宽大 小 是 反比 的 关系 ， 默 
认 情 况 下 ， 路 由 域 中 所 有 路 由 器 都 必须 支持 该 度量 。 

。 ”延迟 度量 : 一 种 可 选 的 度量 ， 用 来 表示 链 路 包 传输 的 延迟 。 

。 ”开销 度量 : 一 种 可 选 的 度量 ， 用 来 表示 链 路 包 传 输 的 开销 。 

。 差错 度量 : 一 种 可 选 的 度量 ， 用 来 表示 链 路 包 传输 时 的 错误 。 

目前 华为 VRP 系统 只 支持 默认 度量 ， 延 迟 、 开 销 和 差错 度量 主要 用 于 支持 QoS 路 
由 选择 的 场景 。 根 据 平时 的 使 用 和 叫 法 ， 下 文 指 的 度量 或 开销 值 如 果 没 有 作 特 别 说 明 ， 
都 是 指 默认 度量 。 缺 省 情况 下 ， 华 为 设备 的 IS-IS 接口 默认 开销 值 都 是 10， 也 可 以 根 
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据 接口 带宽 自动 计算 开销 值 ， 一 条 路 径 的 开销 值 是 指 路 由 由 源 到 目标 经 过 的 所 有 链 路 
开销 总 和 ，ISO 10589 规定 一 条 路 径 的 总 开销 为 1023， 所 以 在 网 络 中 要 合理 规划 开销 
值 。 图 4-33 显示 了 在 一 个 LSP 的 IP 内 部 可 达 性 TLV (类 型 128) 中 携带 的 路 由 前 缀 及 
其 度量 值 的 情况 。 

日 IP Internal reachability (24) 


B IPv4 prefix: 10.1.12.0/24 
Default Metric: 10, Internal, Distribution: yp 


Delay Metric: Not supported 
Expense Metric: Not supported 
Error Metric: Not supported 


图 4-33 IP 内 部 可 达 性 TLV 


在 最 初 的 ISO 10589 定义 中 ， 默 认 度量 字段 只 有 8bit 长 ， 其 中 ， 第 8bit 是 保留 位 并 
被 设置 为 0; 第 7bit 用 来 表示 路 由 是 来 自 内 部 还 是 来 自 路 由 域外 部 ， 设 置 为 0 表示 内 部 
路 由 ， 设 置 为 1 表示 外 部 路 由 。 这 样 下 来 ， 就 只 剩 下 6bit 用 于 表示 度量 值 ， 大 小 范围 为 
0 一 63， 这 种 度量 也 叫 罕 度 量 (Narrow Metric)。 在 后 来 的 RFC1195 定义 中 ， 也 直接 借用 
了 ISO 10589 的 度量 定义 方法 。 该 RFC 规定 了 集成 IS-IS 的 IP 可 达 性 TLV 中 携带 的 度 
量 。 罕 度量 可 以 被 使 用 到 以 下 几 种 TLV 中 。 

。 IP 内 部 可 达 性 TLY (类 型 128): 用 来 携带 路 由 域内 的 IS-IS 路 由 信息 。 

。 IP 外 部 可 达 性 TLV (类 型 130): 用 来 携带 路 由 域外 的 IS-IS 路 由 信息 。 

。 IS 邻居 TLV (类 型 2): 用 来 携带 邻居 信息 。 

随 着 网 络 规模 的 扩大 及 新 型 应 用 对 网 络 的 需求 ， 太 小 的 度量 范围 已 经 无 法 满足 实际 
的 需求 。 因 此 , 在 RFC3784 中 定义 更 长 的 度量 字段 ， 这 个 新 的 度量 被 用 在 以 下 两 种 新 定 
义 的 TLV 中 。 

e。 扩展 的 全 可 达 性 TLV (类 型 135): 用 来 替换 原 有 的 卫 内 部 或 外 部 可 达 性 TLV， 

携带 IS-IS 路 由 信息 ， 可 以 携带 sub TLV。 

。 扩展 的 他 邻居 TLV〔 类 型 22): 是 对 类 型 2 的 TLV 的 扩展 ， 用 来 携带 邻居 信息 。 

与 之 前 6bit 长 的 度量 值 字段 相 比 ， 类 型 135 的 TLV 使 用 了 32bit 的 度量 值 字段 ， 所 
以 一 条 路 由 最 大 的 度量 值 可 以 达到 4261412864; 类 型 22 的 TLV 中 使 用 了 24bit 的 度量 
值 字段 ， 所 以 一 个 IS-IS 接口 最 大 的 度量 值 可 以 扩展 到 16777215。 这 种 度量 类 型 我 们 把 
它 叫 作 宽 度量 (Wide-metric)。 此 外 ， 宽 度量 还 可 以 用 于 MPLS 流量 工程 ， 对 应 于 一 种 
新 的 TLV， 叫 作 流 量 工程 Router ID TLY (类 型 134)。 由 于 MPLS 流量 工程 内 容 超 出 了 
本 书 的 范围 ， 所 以 对 该 TLV 不 做 过 多 介绍 。 

华为 VRP 系统 默认 使 用 的 是 罕 度 量 ， 可 以 使 用 命令 cost-style 修改 度量 类 型 ， 根 据 
具体 情况 可 将 度量 配置 为 以 下 几 种 类 型 的 一 种 。 

Compatible (兼容 度量 ): 设备 发 送 和 接收 的 路 由 既 可 以 使 用 罕 度 量 ， 也 可 使 用 宽 
度量 。 

Narrow《〈 窒 度量 ): 设备 发 送 和 接收 的 路 由 只 能 是 窗 度 量 。 

Narrow-compatible (兼容 窄 度量 ); 设备 发 送 的 路 由 使 用 穿 度 量 ， 接 收 的 路 由 可 以 
使 用 窗 度 量 ， 也 可 以 使 用 宽度 量 。 

Wide 〈 宽 度量 ): 设备 发 送 和 接收 的 路 由 只 能 是 宽度 量 。 
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ea 
Wide-compatible (兼容 宽度 量 )， 设备 发 送 的 路 由 使 用 宽度 量 ， 接 收 的 路 由 可 以 使 
用 窄 度量， 也 可 以 使 用 宽度 量 。 


4.6 1S-IS GR 


4.6.1 GR 技术 概述 


为 确保 业务 的 连续 性 ， 要 求 网 络 系统 能 在 发 生 故 障 时 保证 业务 的 不 间断 转发 ， 实 现 
网 络 的 高 可 用 性 。GR (Graceful Restart) 平滑 重启 就 是 一 种 在 主 备 倒 换 或 协议 重启 时 实 
现 业务 不 间断 转发 的 技术 。 

正常 情况 下 ， 由 于 分 布 式 设备 的 控制 与 转发 是 分 开 的 ， 主 控 板 负责 整个 设备 的 控制 
与 管理 ， 包 括 协议 运行 和 路 由 计算 ， 而 接口 板 则 负责 数据 转发 。 设 备 在 发 生 主 备 倒 换 或 
协议 重启 后 , 与 其 周边 设备 的 邻居 关系 必定 会 断 开 , 邻居 关系 断 开 直接 会 使 路 由 重 置 ( 产 
生 新 的 LSP， 重 新 进行 路 由 计算 )， 路 由 表 的 更 新 直接 会 引起 FIB 表 的 变化 ， 最 终 导致 
业务 中 断 。IETF 针对 这 种 情况 为 IS-IS 制定 了 GR 规范 (RFC3847)，GR 规范 的 基本 思 
想 是 在 设备 倒 换 或 协议 重启 时 ， 通 知 其 周边 设备 继续 保持 其 邻接 关系 和 路 由 信息 。 在 该 
设备 倒 换 或 协议 重启 后 ， 周 边 邻 居 帮 助 其 恢复 之 前 的 链 路 状态 数据 库 和 路 由 表 ， 并 且 周 
边 邻 居 的 链 路 状态 数据 库 和 路 由 表 也 会 保持 稳定 状态 ， 这 样 就 避免 了 路 由 振荡 ， 没 有 路 
由 振荡 确保 了 设备 的 FIB 表 始 终 没 有 发 生变 化 ， 从 而 确保 业务 转发 不 中 断 。 


4.6.2 ”基本 术语 


。 ”GR Restart: 发 生 协 议 重启 事件 且 具 有 GR 能 力 的 设备 。 
。 GR Helper: 和 GR Restart 具有 邻居 关系 ， 协 助 完 成 GR 流程 的 设备 。 
。 GR Session: IS-IS 邻居 建立 时 进行 关于 GR 能 力 的 协商 ， 一般 把 GR 能 力 的 协 
商 过 程 称 为 GR Session。 协商 的 内 容 包 括 双方 是 否 都 具备 GR 能 力 等 。 一旦 GR 
能 力 协商 通过 ， 当 协议 重启 时 就 可 以 进入 GR 流程 。 
这 里 需要 注意 的 是 ， 采 用 分 布 式 架构 的 设备 可 以 充当 GR Restart 和 GR Helper; 而 
集中 式 设 备 只 能 充当 GR Helper， 协 助 GR Restart 完成 GR 流程 。 


4.6.3 IS-IS GR TLYV 与 计时 器 


为 了 实现 GR，IS-IS 引入 Restart TLV 〈 类 型 211) 和 T1、T2、T3 三 个 定时 器 。 

1. Restart TLV 

Restart TLV 包含 在 支持 GR 的 路 由 器 发 出 的 IIH 报 文中 ，Restart TLV 携带 了 进行 
GR 流程 的 一 系列 参数 , 图 4-34 显示 了 Restart TELV 的 格式 , TLV 值 中 包括 标志 位 和 剩余 
时 间 两 个 主要 字段 。 

。 ”标志 位 介绍 。 

如 图 4-35 所 示 ， 目 前 只 用 了 最 后 三 位 作为 相应 标志 位 SA、RA、RR)。 

RR: 重启 请 求 位 《Restart Request)。 设 备 发 送 的 RR 置 位 的 Hello 报 文 用 于 通告 邻 
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Restart signaling (3) 
i Reservedy | SA |RA|RR| B Restart signaling Flags: 0x00 
TE | .... .0.. = Suppress Adjacency: False 


.0. = Restart Acknowledgment: False 
= Restart Request : False 


图 4-34 Restart TLV 格式 图 4 4-35 ”Restart TLV 中 的 Flag 





RA: Restart 确认 标志 位 (Restart Acknowledgement)， 当 RA 位 为 1 时 ,表示 是 对 重 
启 路 由 器 的 应 答 。 

当 GR Restarter 重启 后 ， 在 每 个 接口 上 发 的 第 一 个 Hello 报 文中 将 RR 标志 位 置 1， 
通知 GR Helper 本 设备 正在 重启 ; 当 GR Helper 收 到 GR Restarter 发 来 带 有 RR 标志 位 的 
Hello 报 文 时 ， 立 即 回复 一 个 将 RA 标志 位 置 1 的 Hello 报 文 作为 对 对 方 请 求 的 确认 。 

SA: 抑制 发 布 邻接 关系 位 (Suppress Adjacency Advertisement) 是 一 个 可 选项 ， 其 主 
要 目的 是 为 了 避免 出 现 路 由 黑洞 ， 例 如 在 启动 的 情况 下 ， 此 时 如 果 GR Helper 将 报 文 送 
到 本 设备 来 进行 转发 将 是 一 个 黑洞 , 会 造成 严重 的 丢 包 现象 , 在 这 种 情况 下 GR Restarter 
发 送 的 Hello 报 文中 必须 将 SA 位 置 1， 而 GR Helper 接收 到 这 种 SA 位 被 置 1 的 Hello 
报 文 后 就 不 会 将 发 送 该 Hello 报 文 的 GR Restarter 放 入 LSP 扩散 出 去 ， 即 GR Restarter 
将 在 网 络 上 被 屏蔽 一 段 时 间 ， 所 有 设备 都 不 会 将 报 文 送 到 GR Restarter 上 来 进行 转发 ， 
这 样 就 可 以 有 效 地 避免 路 由 黑洞 问题 。 

。 剩余 时 间 (Remaining Time)。 

Remaining Time 表示 邻居 关系 超时 的 剩余 时 间 〈s)， 即 邻居 设备 进入 GR Helper 处 
理 流 程 的 最 长 保持 时 间 。 如 果 超 出 这 个 时 间 ， 则 GR Restarter 和 GR Helper 的 邻居 关系 
结束 。 当 GR Helper 收 到 GR Restarter 发 送 的 带 有 RR 标志 位 的 Hello 报 文 后 ， 会 立即 回 
复 一 个 将 RA 标志 位 置 1 的 Hello 报 文 作为 确认 ， 在 这 个 确认 报 文中 ， 需 要 将 对 应 邻居 
(GR Restarter) 离 老 化 时 间 的 剩余 秒 数 填 入 Remaining Time 字段 。 

2. 计时 器 

Tl 定时 器 : 如 果 GR Restarter 已 发 送 RR 置 位 的 IIH 报 文 , 但 直到 T1 定时 器 超时 还 
没有 收 到 GR Helper 的 包含 Restart TLV 且 RA 置 位 的 IIH 报 文 的 确认 消息 时 , 会 重 置 T1 
定时 器 并 继续 发 送 包含 Restart TLV 的 IIH 报 文 。 当 收 到 确认 报 文 或 者 Tl 定时 器 已 超时 
3 次 时 ， 取 消 Tl 定时 器 。T1 定时 器 缺 省 设置 为 3s。 

使 能 了 IS-IS GR 特性 的 进程 ， 在 每 个 接口 都 会 维护 一 个 TI 定时 器 。 在 Level-1-2 路 
由 右上， 广播 网 接口 为 每 个 Level 维护 一 个 Tl 定时 器 。 

T2 定时 器 : GR Restarter 从 重启 开始 到 本 Level 所 有 设备 LSDB 完成 同步 的 时 间 。 
T2 定时 器 是 系统 等 待 各 层 LSDB 同步 的 最 长 时 间 ， 一 般 情况 下 为 60s。 

Level-1 和 Level-2 的 LSDB 各 维护 一 个 T2 定时 器 。 

T3 定时 器 : GR Restarter 成 功 完成 GR 所 允许 的 最 大 时 间 。T3 定时 器 的 初始 值 为 
65535s， 但 在 收 到 邻居 回应 的 RA 置 位 的 IIH 报 文 后 ， 取 值 会 变 为 各 个 IIH 报 文 的 
Remaining Time 字段 值 中 的 最 小 者 。T3 定时 器 超时 表示 GR 失败 。 整 个 系统 维护 一 个 
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T3 定时 器 。 
4.6.4 IS--IS GR 的 运行 机 制 


如 图 4-36 所 示 , 显示 了 IS-IS GR 的 运行 过 程 ,这 里 假设 Rl 和 R2 原来 有 稳定 的 IS-IS 
邻居 关系 ， 并 且 R1 和 R2 均 使 能 了 GR 能 力 ， 此 时 R1 进行 主 备 倒 换 或 协议 重启 。 


RI(GR Restarter) R2(GR Helper) 





图 4-36 ”IS-IS GR 运行 过 程 


RI1 与 R2 之 间 进 行 GR 的 详细 过 程 如 下 。 

。 当 R1l 的 IS-IS 协议 被 重新 全 局 使 能 时 启动 T2 和 T3 定时 器 。 当 R1 的 接口 重新 
UP 并 使 能 协议 时 ， 在 接口 上 启动 Tl 定时 器 ， 并 且 发 送 Hello 报 文 。 

。 当 了 R2 收 到 R1 发 出 的 Hello 报 文 后 ， 保 持 邻 居 RI1 的 状态 不 变 ， 立 即 发 送 一 个 
Hello 报 文 。 之 后 ，R2 发 送 CSNP 报 文 和 LSP 报 文 给 R1 以 协助 其 进行 LSDB 
同步 。 

。 当 Rl 在 接口 上 收 到 了 Hello 报 文 以 及 接收 到 全 部 CSNP 报 文 后 就 可 以 取消 Tl 
定时 器 ,否则 就 周期 性 地 发 送 Hello 报 文 ， 直 到 收 到 Hello 报 文 以 及 全 部 CSNP 
报 文 或 者 Tl 定时 器 达到 最 大 超时 次 数 才 取消 该 接口 的 Tl 定时 器 。 

。 当 LSDB 同步 完成 之 后 ，R1 取消 T2 定时 器 。 

。  ” 当 所 有 T2 定时 器 都 取消 之 后 就 可 以 取消 T3 定时 器 ，GR 流程 结束 ， 正 式 进入 
IS-IS 的 正常 流程 。 此 时 需要 在 所 有 接口 上 启动 IIH 定时 器 ， 以 后 就 周期 性 地 发 
送 正常 的 Hello 报 文 。 

。 RIl 在 恢复 所 有 路 由 信息 后 重新 进行 路 由 计算 ， 重 新 刷新 FIB 表 。 


4.7 1S-IS 网 络 案 例 


4.7.1 案例 1: 路 由 泄露 


在 前 文中 介绍 到 ，IS-IS 支持 多 区 域 分 层 设计 的 网 络 结构 一 一 Ll 区 域 和 L2 区 域 , 其 
中 ，L2 区 域 作为 骨干 区 域 ， 多 个 L1 区域 通过 L2 区 域 互 连 互通 。 而 且 在 默认 情况 下 ，IS-IS 
的 Ll 区 域 类 似 OSPF 的 完全 末梢 区 域 ， 只 有 区 域内 的 路 由 信息 。 每 个 L1 区 域 的 L1/2 
路 由 器 向 区 域内 发 送 L1 的 LSP 时 ， 会 将 LSP 中 的 ATT 位 置 1 以 表明 它 连接 了 其 他 区 域 ， 
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这 样 ，L1 路 由 器 会 在 路 由 器 中 安装 默认 路 由 ， 该 默认 路 由 指向 离 它 最 近 的 直 1/2 路 由 器 ， 也 
就 是 说 Ll 路 由 器 使 用 离 它 最 近 的 L1/2 路 由 器 作为 缺 省 网 关 来 访问 骨干 和 其 他 LI1 区域。 
如 图 4-37 所 示 的 网 络 ，R1 和 R2 是 区 域 49.0001 的 L1/2 路 由 器 ， 它 们 连接 到 骨干 
区 域 ， 具 有 两 张 链 路 状态 数据 库 ; R3 和 R4 是 区 域 49.0001 中 的 L1 路 由 器 ,它们 的 链 路 
状态 数据 中 只 有 本 区 域内 的 路 由 信息 。 此 时 ，R1 和 R2 都 会 在 通告 到 区 域 49.0001 的 Ll 
LSP 中 设置 ATT 位 ， 图 4-37 分 别 显示 了 R3 和 R4 的 链 路 状态 数据 库 。 





Cost=10 







Cost=20 


Cost=30 Area 49.0002 










Area 49.0001 


4-37 IS-IS 路 由 泄露 


下 面 的 输出 内 容 显 示 了 R3 和 R4 都 接收 到 了 两 个 带 ATT 置 位 的 LSP (分 别 由 Rl 和 
R2 发 送 )。 这 里 需要 注意 的 是 ， 并 不 是 所 有 的 L1/2 路 由 器 发 出 的 LI LSP 都 会 设置 ATT 
位 ， 设 置 ATT 位 的 条 件 是 L1/2 路 由 器 必须 有 个 激活 的 L2 连接 ， 很 显然 网 络 中 的 R1 和 
R2 满足 该 条 件 。 
[R3]display isis lsdb 
Database information for IS-IS(1) 





Level-l Link State Database 


LSPID Seq Num Checksum Holdtime Length ATT/P/OL 
0000.0000.0001.00-00 0x00000011 Oxbb8e 913 113 10/0 
0000.0000.0001.01-00 ”0x00000004 0x690e 913 54 0/0/0 
0000.0000.0002.00-00 ”0x00000013 0x3ef2 1002 113 1/0/0 
0000.0000.0002.01-00 ”0x00000004 Ox84ef 1002 54 0/0/0 
(其 他 输出 部 分 咯 》 


[R4]display isis lsdb 
Database information for IS-IS(1) 


---------------------~---------------~---------~------ 


Level-1 Link State Database 


LSPID Seq Num Checksum Holdtime Length ATT/P/OL 

0000.0000.0001.00-00 ”0x00000011 Oxbb8e 690 113 1/0/0 

0000.0000.0001.01-00 Ox00000004 Ox690e 690 54 0/0/0 

0000.0000.0002.00-00 “0x00000013 0x3ef2 780 113 1/0/0 
(其 他 输出 部 分 略 ) 


L1 路 由 器 接收 到 带 ATT 置 位 的 LSP 后 , 会 根据 距离 最 近 的 L1/2 路 由 器 产生 一 条 默 
认 路 由 , 所 有 访问 其 他 区 域 的 数据 包 都 会 使 用 这 台 L1/2 路 由 器 作为 缺 省 的 网 络 出 口 。 根 
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据 图 4-37 所 示 的 各 链 路 的 开销 值 ， 很 显然 ，R3 和 R4 都 以 R2 作为 缺 省 出 口 。 下 面 的 输 
出 内 容 显 示 了 R3 和 R4 的 路 由 表情 况 。 


[R3]display ip routing-table 

Destination/Mask Proto Pre Cost Flags NextHop Interface 
0.0.0.0/0 IS-IS-L115 15 D 10.1.34.4 GigabitEthernet0/0/1 
10.1.1.1/32 IS-IS-L115 20 Ty "103 GigabitEthernet0/0/0 
10.1,2.2/321S-1S-L115 15 D 10.1.34.4 GigabitEthernet0/0/1 
10;1.3:3/32 Direct 0 “0 D 127.0.0.1 LoopBack0 
10.1.4.4/32 IS-IS-L115 10 D 10.1.34.4 GigabitEthernet0/0/1 


(其 他 输出 略 》 
[R4]dis ip routing-table 
Destination/Mask Proto Pre Cost Flags NextHop Interface 


0.0.0.0/0 1IS-IS-L115 5 D 10.1.24.2 GigabitEthernet0/0/1 
10.1.1.1/32 1IS-IS-L115 30 D 10.1.34.3 GigabitEthernet0/0/0 
10.1.2.2/32 1S-IS-L115 5 D 10.1.24.2 GigabitEthernet0/0/1 
10.1.3.3/32 1S-IS-L115 10 BDIo9J .343 GigabitEthernet0/0/0 
10.1.4.4/32 Direct 0 0 D WIOOI LoopBack0 
10.1.13.0/24 IS-IS-L1 15 30 D 10.1.34.3 GigabitEthernet0/0/0 


(其 他 输出 部 分 咯 ) 

由 上 面 的 输出 可 以 发 现 ，R3 和 R4 的 路 由 表 中 只 有 LIl 的 路 由 ， 还 有 一 条 默认 路 由 ， 
所 有 转发 到 其 他 区 域 的 数据 都 是 使 用 该 默认 路 由 的 。 下 面 的 输出 显示 了 在 R3 上 使 用 
Tracert 命令 跟踪 访问 5.5.5.0/24 的 路 径 1 ji 可 以 发 现 ，R3 访问 网 络 5.5.5.0/24 的 业务 
流 经 过 的 路 径 是 R3>R4>R2>R1>R5， 这 显然 不 是 最 优 的 路 径 〈 最 优 的 路 径 应 该 是 
R3->R1>R5)。 


<R3>tracert 5.5.5.5 
traceroute to 5.5.5.5(5.5.5.5), max hops: 30, packet length: 40, press CTRL_C to bAreak 
1 10.1.34.4270ms 140ms 80 ms 
2 10.1.24.2 120ms 70ms 40 ms 
3 10.1.26.6 220 ms 10.1.12.1 110 ms10.1.26.6 190 ms 
4 10.1.15.5 230 ms 10.1.56.5 90 ms 10.1.15.5 60 ms 


为 使 R3 访问 网 络 5.5.5.0/24 使 用 最 优 路 径 ， 我 们 可 以 在 路 由 器 RI 和 R2 上 将 区 域 
49.0002 的 L2 路 由 引入 至 区 域 49.0001， 这 个 过 程 叫 路 由 泄露 。 下 面 的 输出 内 容 显示 了 
在 Rl 进行 路 由 泄露 的 配置 方法 。 

[R1jdisplay current-configuration configuration isis 

isis 1 

Cost-style wide 


network-entity 49.0001.0000.0000.0001.00 
es isis level-2 into level-1 


下 面 的 输出 内 容 显示 了 在 R1 上 进行 路 由 泄露 后 R3 的 路 由 表 的 情况 ， 可 以 发 现 R1 
已 经 收 到 了 像 5.5.5.0/24 这 些 来 自 区 域 49.0002 的 路 由 , 这 时 R3 访问 5.5.5.0/24 变 成 了 总 


开销 值 为 30 的 路 径 : R3 了 RI1 了 RR5。 
<R3>display ip routing-table 


Destination/Mask Proto Pre Cost Flags NextHop Interface 
0.0.0.0/0 IS-IS-Ll115 15 D 10.1.34.4 GigabitEthernet0/0/1 
$5.5.5.0/24 1S-IS-L115 30 区 “D3 没 GigabitEthernet0/0/0 
6.6.6.0/24 IS-IS-L115 60 D 10.1.13.1 GigabitEthernet0/0/0 
10.1.1,1/32 1S-IS-L1 15 20 De DIS GigabitEthernet0 


(其 他 输出 部 分 略 ) 
如 果 无 需 将 L2 区 域 中 的 所 有 路 由 泄露 到 Ll 区域 ,这 时 需要 在 泄露 时 进行 路 由 过 滤 。 
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在 路 由 泄露 命令 之 后 引用 一 个 filter-policy 就 可 进行 路 由 的 过 滤 , 下 面 给 出 了 具体 的 做 法 。 
下 面 的 输出 内 容 显 示 只 将 区 域 49.0002 中 5.5.5.0/24 网 络 引 入 进 区 域 49.0001。 
[R1]display current-configuration 
其 
isis 1 
is-level level-1 
Cost-style wide 
network-entity 49.0001.0000.0000.0003.00 
import-route isis level-2 into level-1 filter-policy ip-prefix 1 
# 
ip ip-prefix 1 index 10 permit 5.5.5.0 24 


通过 上 面 的 案例 ， 我 们 可 以 知道 ， 通 过 路 由 泄露 使 得 L1 区 域 能 够 收 到 其 他 区 域 的 
具体 路 径 信息 〈 网 络 前 缀 及 开销 值 )， 这 样 可 以 避免 次 优 路 径 的 问题 。 考 虑 到 网 络 中 部 署 
的 某 些 业务 可 能 只 在 L2 区 域内 运行 ， 则 无 需 将 这 些 路 由 渗透 到 LI1 区 域 中 ， 可 以 通过 配 
置 策略 仅 将 部 分 L2 区 域 的 路 由 渗透 到 L1 区 域 。 另 外 ， 这 种 方法 也 可 以 用 于 L1 区 域 向 
L2 区 域 进行 路 由 泄露 时 的 过 滤 ， 缺 省 情况 下 ，L1 区 域 中 的 所 有 路 由 都 会 泄露 至 L2 区 域 。 


4.7.2 ”案例 2: IS-IS 路 由 聚合 


在 网 络 中 进行 路 由 聚合 有 两 个 好 处 : 一 是 可 以 减少 通告 的 路 由 数目 ， 减 少 路 由 表 的 
规模 ， 节 省 路 由 器 的 系统 资源 ， 提 高 数据 包 的 转发 效率 ; 二 是 可 以 增强 网 络 的 稳定 性 ， 
因为 聚合 路 由 隐藏 和 隔离 了 明细 网 络 的 故障 。 

跟 OSPF 协议 一 样 ，IS-IS 也 支持 区 域 间 及 外 部 路 由 的 聚合 ， 区 域 间 通告 路 由 须 在 
L1/2 路 由 器 上 进行 聚合 , 在 边界 设备 将 外 部 路 由 引入 时 也 可 以 进行 聚合 。IS-IS 没有 自动 
聚合 能 力 ， 只 能 进行 手工 聚合 。 下 面 就 让 我 们 一 起 来 了 解 一 下 怎么 在 网 络 中 进行 IS-IS 
路 由 聚合 。 如 图 4-38 所 示 ， 网 络 中 有 两 个 IS-IS 区 域 ， 区 域 49.0001 被 配置 为 L2 区 域 ， 
区 域 49.0002 被 配置 为 了 LI1 区 域 ， 区 域 49.0001 中 所 有 路 由 器 都 是 L2 路 由 器 ， 区 域 
49.0002 中 的 R7 是 L1 路 由 器 (一 台 华 为 低 端 路 由 器 )，R5 和 R7 是 L1/2 路 由 器 。 


Cost=10 


Area 49.0001 





图 4-38 IS-IS 路 由 聚合 


由 于 IS-IS 网 络 的 路 由 条 目 过 多 (具有 大 量 的 1.1.x.y/24 的 网 络 前 级 )， 这 些 路 由 通 
告 进 L1 区 域 时 会 造成 R7 系统 资源 负载 过 重 , 现 要 求 降低 R7 的 系统 资源 的 消耗 , 在 R5 
和 R6 上 将 L2 区 域 中 的 路 由 通告 进 L1 区 域 时 进行 路 由 聚合 ， 减 少 通告 路 由 的 数量 后 ， 
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缩减 了 R7 的 路 由 表 规模 ， 降 低 了 资源 开销 。 
下 面 的 输出 内 容 显示 了 R5 和 R6 上 的 路 由 聚合 配置 方法 。 


isis 1 

network-entity 49.0002.0000.0000.0005.00 
import-route isis level-2 into level-1 

pe 1.1.0.0 255.255.0.0 level-1 。 # 曲 合 后 的 路 由 类 型 是 Ll 的 


聚合 后 可 以 观察 到 R7 的 路 由 表 中 内 接收 到 一 条 聚合 后 的 路 由 ， 而 不 再 有 明细 路 由 
信息 。 但是， 这 里 需要 注意 的 问题 是 ， 默 认 情 况 下 ，IS-IS 在 做 完 聚 合 路 由 后 ， 本 地 路 由 
表 中 不 会 自动 生成 一 条 指向 黑洞 接口 (null0) 的 聚合 路 由 ， 这 在 一 些 情况 下 会 带 来 路 由 
环 路 的 问题 。 在 图 4-38 所 示 的 网 络 中 ， 如 果 网 络 1.1.1.0/24 出 现 故障 ，IS-IS 协议 在 收敛 
后 ，Rs 和 R6 中 的 路 由 表 中 不 再 有 该 路 由 。 但 是 ， 由 于 Rs 和 R6 路 由 器 都 在 通告 聚合 路 
由 ， 结 果 就 是 R5 和 R6 都 会 接收 到 对 方 的 聚合 路 由 〈 下 面 显示 了 Rs 和 R6 的 路 由 表 信 
息 )， 并 将 其 放 入 路 由 表 中 ， 导 致 路 由 环 路 的 出 现 。 假 设 这 时 有 个 目标 为 网 络 1.1.1.0/24 
的 数据 流 到 达 R5 或 R6，R5 会 根据 聚合 路 由 将 这 个 数据 流 发 给 R6， 而 R6 也 会 将 该 数 
据 流 发 送 给 R5， 这 样 就 导致 了 在 R5 和 R6 之 间 的 数据 环 路 问题 。 

[RS]dis ip routing-table 


Destination/Mask Proto Pre Cost Flags NextHop Interface 
1.1.0.0/16 1S-IS-L1 15 30 D 10.1.56.2 GigabitEthemet0/0/1 


1.1.2.0/24 IS-IS-L2 15 30 DD 10.1.56.2 GigabitEthernet0/0/1 
1.1.12.0/24 IS-IS-L2 15 20 D 10.1.35.1 GigabitEthernet0/0/0 
(其 他 输出 略 ) 


[R6]dis ip routing-table 

Destination/Mask Proto Pre Cost Flags NextHop Interface 
1.1.0,0/16 IS-IS-L1 15 30 D 10.1.56.1 GigabitEthermet0/0/1 
1.1.2.0/24 IS-IS-L2 15 20 D 10.1.46.1 GigabitEthernet0/0/0 
1.1.12.0/24 IS-IS-L2 15 30 D 10.1.56.1 GigabitEthernet0/0/1 
(其 他 输出 略 ) 


为 避免 上 述 问题 ， 华为 设备 提供 了 以 下 三 种 方法 。 

(1) 在 路 由 聚合 命令 之 后 配置 avoid-feedback， 和 避免 从 其 他 设备 接收 到 该 聚合 路 由 ， 
如 下 所 示 : 

summary 1.1.0.0 255.255.0.0 level-1 avoid-feedback 

(2) 在 路 由 聚合 命令 之 后 配置 generate_null0_route， 在 本 地 路 由 表 中 生成 一 条 指向 
null0 的 聚合 路 由 条 目 ， 如 下 所 示 : 

summary 1.1.0.0 255.255.0.0 level-1 generate_null0_route 

(3) 手工 配置 一 条 指向 null0 接口 的 聚合 路 由 ， 如 下 所 示 : 

ip route-static 1.1.0.0 255.255.0.0 null0 preference 5 

IS-IS 作为 一 种 链 路 状态 路 由 协议 ， 做 路 由 聚合 时 没有 距离 矢量 路 由 协议 的 灵活 性 ， 
像 RIP 协议 ， 它 可 以 在 任意 一 个 接口 上 做 路 由 聚合 ， 而 链 路 状态 协议 只 能 在 区 域 边 界 或 
连接 外 部 网 络 的 边缘 路 由 器 上 做 路 由 聚合 ， 在 区 域内 通告 路 由 是 没有 办 法 聚合 的 。 


4.7.3 ”案例 3: 路 由 通告 和 过 滤 
这 里 还 是 以 4.5.2 小 节 的 场景 为 例 ， 假 设 现在 在 R5 和 R6 上 已 经 配置 好 L2 区 域 问 
L1 区 域 的 路 由 泄露 ， 但 是 在 R7 上 还 是 没有 学 习 到 来 自 RS 和 R6 的 路 由 ， 查 看 R7 邻居 
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表 发 现 邻 居 关 系 都 是 正常 的 。 


[R7]display isis peer 
Peer information for IS-IS(1) 
System Id Interface Circuit Id State HoldTime Type PRI 
0000.0000.0005 GE0/0/0 0000.0000.0007.01 Up 20s 1 也 
0000.0000.0006 GE0/0/1 0000.0000.0007.02 Up 20s Ll 


进一步 查看 R7 的 链 路 状态 数据 库 ， 发 现 R7 已 经 收 到 了 来 自 R5 和 R7 的 LSP。 


[R7]display isis lsdb 
Database information for IS-IS(1) 


Level-1 Link State Database 


LSPID Seq Num Checksum Holdtime Length ATT/P/OL 
0000.0000.0005.00-00 0x00000034 Ox880c 1119 192 1/0/0 
0000.0000.0006.00-00 0x00000023 0x1543 484 112 1/0/0 
0000.0000.0006.02-00 Ox0000000d Ox92ce 484 54 0/0/0 
0000.0000.0007.00-00* 0x00000014 0x10c7 492 113 0/0/0 
0000.0000.0007.01-00* 0x0000000c 0x2a49 492 $5 0/0/0 
0000.0000.0007.02-00* 0x0000000c ”0x3f32 492 55 0/0/0 


如 下 所 示 ， 进 一 步 查看 R5 和 R6 的 LSP 详细 信息 。 


[R7]display isis lsdb 0000.0000.0005.00-00 verbose 
Database information for IS-IS(1) 


Level-l Link State Database 


LSPID Seq Num Checksum Holdtime Length ATT/P/OL 
0000.0000.0005.00-00 0x00000037 Ox6d4c -1145 192 1/0/0 
SOURCE 0000.0000.0005.00 
NLPID IPV4 
AREAADDR 49.0002 
INTFADDR 10.1.35.2 
INTFADDR C5.5.5.5 
INTFADDR 10.1.56.1 
INTFADDR 10.1.57.1 
+NBR ID 0000.0000.0006.02 COST: 10 
+NBR ID 0000.0000.0007.01 COST: 10 
+IP-Extended 5.5.5.0 255,255,2550 COST:0 
+IP-Extended 10.1.56.0 255 2592580 COST 10 
+IP-Extended 10.1.57.0 255 255.2550， COST 10 
+IP-Extended 10.1.35.0 255.25%.255.0 COST 2000 
+IP-Extended* 3.3.3.0 255.255.255.0 COST: 2000 
+IP-Extended* 10.1.13.0 255 .255.2550 COST: 2010 
+IP-Extended* 1.1.1.0 255.255.255.0 ~ COST: 2010 
+IP-Extended* 1.1.12.0 255 2552550 COST 2010 
(其 他 输出 略 ) 
[R7]display isis lsdb 0000.0000.0006.00-00 verbose 

Database information for IS-IS(1) 

Level-1 Link State Database 
LSPID Seq Num Checksum Holdtime Length ATT/P/OL 
0000.0000.0006.00-00 0x00000026 0xf393 1118 112 1/0/0 


SOURCE 


0000.0000.0006.00 
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+NBR ID 0000.0000.0007.02 COST: 10 

+NBR D 0000.0000.0006.02 COST: 10 

+IP-Extended 10.1.67.0 255.255.255.0 COST: 10 

+IP-Extended 6.6.6.0 255.255.255.0 -COST:0 

+IP-Extended 10.1.56.0 255.255.255.0 COST: 10 

+IP-Extended 10.1.46.0 255.255.255.0 COST 2000 
《其 他 输出 略 ) 


由 R5 和 R6 通告 的 路 由 的 开销 值 可 以 看 出 ,Rs 和 R6 使 用 的 开销 类 型 为 wide metric， 
而 R7 使 用 默认 的 开销 类 型 : narrow， 导 致 路 由 的 计算 失败 ， 这 时 将 R7 的 开销 类 型 修改 
成 wide， 问题 得 以 解决 。 

[R7]isis 1 

[R7-isis-l]cost-style wide 


[R7]display ip routing-table 
Route Flags: R-relay, D-download to fib 





Routing Tables: Public 


Destinations : 27 Routes : 30 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
40600002 ISISLI 15= 10 -D ‘1067] GigabitEthernet0/0/1 3 
IS-IS-L1 15 10 Dr S10T374 GigabitEthernet0/0/0 
1.1.1.0/24 IS-IS-L1 15 30 Dr TOS GigabitEthernet0/0/0 
2.2.2.0/241S-IS-L1 15 30 D 10.1.67.1 GigabitEthernet0/0/1 


(其 他 输出 略 ) 

只 有 邻居 之 间 使 用 相同 的 开销 类 型 ， 才 能 正确 计算 学 到 的 路 由 。 如 果 一 端 配置 是 
narrow， 男 一 端 配 置 为 wide 或 者 wide-compatible， 则 两 端 不 能 相互 学 习 路 由 ; 如 果 一 端 
配置 是 narrow-compatible， 另 一 端 配置 为 wide， 则 两 端 也 不 能 相互 学 习 路 由 。 其 他 方式 
的 开销 类 型 组 合 都 可 以 学 习 到 路 由 。 

为 节省 资源 开销 ，R7 只 需要 转发 一 部 分 骨干 区 域 网 络 的 业务 流量 ， 比 如 只 需要 转发 
去 往 1.1.1.0/24 和 2.2.2.0/24 网 络 对 应 的 流量 ， 我 们 知道 PP 报 文 是 根据 卫 路 由 表 来 进行 
转发 的 。IS-IS 路 由 表 中 的 路 由 条 目 需 要 被 成 功 下 发 到 卫 路 由 表 中 ， 该 路 由 条 目 才 生 效 。 
因此 ， 可 以 通过 配置 基本 ACL、IP-Prefix、 路 由 策略 等 方式 ， 只 人 允许 匹配 的 IS-IS 路 由 
下 发 到 IP 路 由 表 中 。 不 匹配 的 IS-IS 路 由 将 会 被 阻止 进入 IP 路 由 表 ， 更 不 会 被 优选 。 

下 面 的 输出 内 容 显 示 了 R7 具体 的 配置 。 

Sysname R7 

#9 

acl number 2000 

rule 5 permit source 1.1.1.0 0.0.0.255 

rule 10 permit source 2.2.2.0 0.0.0.255 


# 
# 
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isis 1 
is-level level-1 
network-entity 49.0002.0000.0000.0007.00 


filter-policy 2000 import 

# ， ， 

观察 R7 的 路 由 表 ， 可 以 发 现 R7 路 由 表 中 除了 直 连 网 络 的 路 由 之 外 只 有 1.1.1.0/24 
和 2.2.2.0/24。 


[R7-isis-1]dis ip routing-table 
Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 15 Routes:15 
Destination/Mask ~ Proto Pre Cost Flags NextHop Interface 
11.1024 区 SI 15 ‘30 DBD 11041.57.1 GigabitEthemet0/0/0 
2.2.2.0/24 IS-IS-L1. 15 30 046 GigabitEthernet0/0/1 
7.7.7.0/24 Direct 0 0 中 1 LoopBack0 
TUN Direet 由 D 127.0.0.1 LoopBack0 
I1.7.23532 Dieet 0 0 D127.0.0,] LoopBack0 
10.4.57.024 Direet .0 ， 0 D101.572 GigabitEthernet0/0/0 


如 果 在 区 域 49.0002 中 R7 的 下 方 还 有 一 台 路 由 器 (R8， 如 图 4-39 所 示 ) 那么 这 人 台 
路 由 器 的 路 由 表 是 如 何 的 ? 实际 上 R8 会 拥有 所 有 来 自 骨干 网 的 路 由 ， 因 为 在 区 域内 入 
方向 的 filter-policy， 只 会 影响 本 地 路 由 表 ， 不 会 过 滤 LSP， 所 以 R8 上 还 是 具有 所 有 人 骨 
于 区 域 中 的 路 由 ， 下 表 显 示 了 R8 的 路 由 表 。 








图 4-39 ”路 由 通告 和 过 滤 


[R8]display ip routing-table 
Route Flags: R-relay, D-download to fib 


i 


Routing Tables: Public 


Destinations : 24 Routes : 24 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
1.1.1.0/24 IS-IS-L115 40 Dy 110178,1 GigabitEthernet0/0/0 
252024 TaNSL115 40 五 “101751 GigabitEthernet0/0/0 
3.3.3.0/24 IS-IS-L115 30 D 10.1.78.1 GigabitEthernet0/0/0 
4.4.4.0/24 IS-IS-L115 30 D10178.1 GigabitEthernet0/0/0 ， 
5.5.5.0/24 IS-IS-L115 20 D100.1 GigabitEthernet0/0/0 
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如 果 入 方向 的 Filter-policy 应 用 在 区 域 的 边界 上 会 是 什么 样 的 情况 呢 ? 比如 在 Rs 上 

将 区 域 49.0002 中 7.7.7.0 /24 的 路 由 过 滤 掉 ， 此 时 Rs 中 的 路 由 表 中 没有 了 7.7.7.0/24 网 

络 中 的 路 由 ， 那 么 骨干 区 域 还 能 接收 到 由 R5 通告 的 7.7.7.0/24 的 路 由 吗 ? 答案 是 不 能 。 

因为 R5 是 一 台 L1/2 路 由 器 ， 它 负责 将 L1 区 域 的 路 由 通告 进 L2 区 域 ， 将 L1 区 域 的 路 

由 通告 进 L2 区 域 必须 满足 一 个 条 件 , 那 就 是 该 L1 区 域 的 路 由 必须 存在 于 本 地 的 路 由 表 

中 《〈 因 为 链 路 状态 协议 在 区 域 之 间 通 告 路 由 是 遵守 距离 矢量 路 由 特性 的 )。 所 以 ，R5 不 

会 向 骨干 区 域 通告 路 由 7.7.7.0/24。 


4.8 1S-IS for IPv6 


4.8.1 概述 


随 着 新 型 应 用 技术 的 飞速 发 展 ， 大 量 硬件 设备 比如 手机 、IPAD、 汽 车 、 家 用 电 
器 等 都 接 入 到 了 Internet, IP 地 址 需求 旺盛 ， 于 是 IPv6 应 运 而 生 。IPv6 不 但 提供 了 巨 
大 的 地 址 空间 ， 还 简化 了 IP 报头 ， 提 高 了 通信 效率 ， 此 外 ，IPv6 在 安全 性 、 移 动 性 
等 方面 也 有 很 大 的 改善 。 随 着 IPv6 应 用 的 逐渐 普及 ， 越 来 越 多 的 个 人 或 团体 会 使 用 
IPv6 服务 。 

跟 IPv4 网 络 一 样 ，IPv6 报 文 需要 使 用 路 由 技术 来 指导 报 文 的 转发 ， 我 们 所 了 解 的 
在 IPv4 网 络 中 应 用 的 路 由 技术 有 静态 路 由 、OSPF、IS-IS、BGP 等 ， 这 些 路 由 技术 同样 
适应 于 IPv6 网 络 。IS-IS 协议 本 身 是 基于 TLV 结构 的 ， 具 备 天 然 的 扩展 性 特点 ， 很 方便 
地 实现 了 对 IPv6 网 络 的 支持 。 使 用 IS-IS 可 以 很 准确 和 迅速 地 发 现 和 计算 IPv6 路 由 , 为 
IPv6 业务 流 的 转发 提供 了 有 力 的 保障 , 能 支持 IPv6 网 络 的 IS-IS 路 由 协议 又 称 为 IS-ISV6 
路 由 协议 。 

前 面 的 章节 详细 介绍 了 IS-IS 路 由 协议 在 IPv4 网 络 中 的 运行 机 制 ， 包 括 一 些 IS-IS 
的 基本 概念 以 及 报 文 及 TLV 的 介绍 、 邻 接 关 系 的 建立 及 路 由 的 计算 等 。IS-ISv6 的 运行 
机 制 和 IPv4 版 本 的 IS-IS 是 一 致 的 ， 这 一 节 只 就 JS-ISv6 引入 的 新 机 制 及 特性 进行 详细 
的 介绍 。 


4.8.2 IS 一 ISV6 使 用 的 TLV 


前 文 介绍 过 IS-IS 作为 一 个 链 路 状态 的 动态 路 由 协议 ， 路 由 器 之 间 通 过 LSP 报 文 的 
交换 来 学 习 拓扑 和 路 由 信息 ， 而 LSP 是 通过 TLV 来 携带 这 些 信息 的 ， 不 同 的 TLV 的 功 
能 也 不 相同 。 为 了 支持 IPv6 路 由 的 处 理 和 计算 ，IS-IS 新 增 了 两 个 TLV 
(Type-Length-Value) 和 一 个 新 的 NLPID (Network Layer Protocol Identifier)。 

4.8.2.1 1IPv6 可 达 性 TLV 

IPv6 可 达 性 TLV〈 类 型 236) 携带 了 源 路 由 器 可 以 到 达 的 IPv6 的 网 络 前 缀 及 路 径 开 
销 信 息 ， 这 个 TLV 可 同时 用 于 通告 内 部 和 外 部 路 由 。 这 里 携带 的 网 络 前 缀 可 以 是 源 路 由 
器 上 启用 了 IS-IS 协议 的 直 连 接口 上 连接 的 网 络 ， 也 可 以 是 源 路 由 通过 邻居 路 由 器 学 习 
到 的 网 络 ， 该 TLV 的 格式 如 图 4-40 所 示 。 
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SB IPV6 reachability (72) 
GB IPv6 prefix: 2001::1/128, Metric: 0, Distribution: up, internal, no sub-TLVs present 
IPV6 prefix: 2001::1/128 
Metric: 0 
Distribution: up, internal 
no sub-TLVs present 


4-40 IPv6 TLYV 格式 


其 中 主要 字段 的 解释 如 下 。 

IPv6 Prefix: IPv6 路 由 前 级 。 

Metric: 度量 值 ， 这 里 使 用 的 是 扩展 度量 ;IS-ISV6 宣告 IPv6 的 可 达 性 TLV 中 不 再 
像 IPv4 那样 区 分 了 普通 可 达 性 TLV 和 扩展 的 可 达 性 TLV， 统 一 使 用 IPv6 可 达 性 TLV， 
支持 的 最 大 Metric 开销 为 MAX V6 PATH METRIC ( 4261412864 ) ， 大 于 
MAX V6 PATH METRIC 的 IPv6 可 达 性 信息 都 被 忽略 掉 。 

Distribution: UP/Down 状态 标志 位 ， 前 文 介绍 过 ， 这 个 位 用 来 防止 路 由 环 路 ， 当 L2 
路 由 进入 Ll 区 域 时 就 会 被 置 位 。 

Internal: 用 来 表示 该 路 由 是 内 部 路 由 ; 如 果 是 外 部 路 由 ， 则 显示 external。 

sub-TLVS: 表示 子 TLV 信息 ， 这 里 没有 携带 任何 子 TLV。 

4.8.2.2 1Pv6 接口 地 址 TLV 

IPv6 接 口 地 址 TLV 用 于 携带 源 路 由 器 所 有 启用 了 IS-IS 协 议 的 接口 的 地 址 .这 个 TLV 
同时 存在 于 Hello 和 LSP 报 文中 ，Hello 报 文 的 IP 接口 TLV 填充 的 是 发 送 接口 的 链 路 
本 地 地 址 ，LSP 报 文中 的 人 P 接口 地 址 TLV 填充 的 是 所 有 IS-IS 接口 的 全 球 单 播 地 址 。 
图 4-41 显示 了 一 份 LSP 报 文中 IPv6 接口 地 址 TLV 的 格式 ， 可 以 观察 到 ， 发 送 这 份 报 
文 的 路 由 器 有 三 个 IPv6 接口 使 能 了 IS-IS 协议 。 


BIPV6 Interface address(es) (48) 
IPv6 interface address: 2001::1 (2001::1) 
IPVv6 interface address: 2001:15::1 (2001:15::1) 
IPv6 interface address: 2001:12::1 (2001:12::1) 


4-41 “IS-IS 接口 


4.8.2.3 支持 的 NLPID TLV 

NLPID 是 标识 网 络 层 协 议 报 文 的 一 个 8 比特 字段 , IPv6 的 NLPID 值 为 142 (0x8E)。 
如 果 IS-IS 文 持 Pv6, 那么 向 外 发 布 IPv6 路 由 时 必须 携带 NLPID 值 。 图 4-42 显示 了 Hello 
报 文 携带 了 IPv6 的 NLPID。 


轧 TSIS HELLO 

Circuit type : Level 1 and 2, reserved(0x00 == 0) 
System-ID {Sender of PDU} : 0000.0000.0005 
Holding timer: 9 
PDU length: 1497 
priority : 64, reserved(O0x00 == 0) 
system-ID {Designated Is} : 0000.0000.0005.01 

田 Area address(es) (4) 

田 IS Neighbor (s) (6) 

田 IPV6 Interface address(es) {16) 

NLPID(S): IPV6 (Ox8e) 
田 Restart signaling (3) 
因 Multi Topology (2) 


图 4-42 NLPID TLV 
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4.8.3 IJIS-IS 多 拓扑 


4.8.3.1 概述 

在 现 网 中 , 往往 会 通过 同一 套 IP 网 络 基础 设施 来 提供 多 种 不 同 的 网 络 服务 ， 比 如 网 
络 同时 支持 IPv4 和 IPv6 服务 。 虽 然 IPv6 成 为 主流 技术 已 经 是 大 势 所 趋 ， 但 是 为 了 节省 
设备 和 运营 成 本 ， 没 有 必要 为 IPv6 单独 建立 一 张 网 络 ， 而 是 在 网 络 中 将 现 有 的 IPv4 逐 
渐 过 渡 到 IPv6， 所 以 在 很 长 一 段 时 间 ， 网 络 中 会 是 IPv4 和 IPv6 共存 的 局 面 。 由 IPv4 过 
渡 到 IPv6 的 技术 主要 有 双 协 议 栈 和 隧道 , 其 中 , 双 协 议 栈 是 指 设备 同时 支持 IPv4 和 IPv6 
两 个 协议 族 ， 它 可 以 和 只 支持 IPv4 或 IPv6 协议 的 设备 建立 通信 。 

网 络 中 如 果 同 时 存在 IPv4 和 IPv6 服务 ， 这 时 不 同 协议 的 数据 包 转 发 路 径 就 得 分 开 
计算 ， 否 则 会 带 来 一 些 问题 。 而 IS-IS 协议 通过 IPv6 扩展 的 TLV 一 起 携带 IPv6 和 IPv4 
的 路 由 拓扑 信息 ， 也 就 是 说 IPv4 和 IPv6 使 用 的 是 相同 的 最 短路 径 ， 这 时 数据 包 在 转发 
过 程 就 可 能 出 现 问题 ， 比 如 IPv6 数据 包 有 可 能 被 转发 到 不 支持 IPv6 的 设备 或 链 路 而 被 
丢弃 。 同样 , 存在 不 支持 IPv4 的 路 由 器 或 链 路 时 , IPv4 报 文 也 无 法 转发 。 IETF 有 关 IS-IS 
多 拓扑 的 草案 就 是 针对 上 述 情况 而 提出 的 。 

4.8.3.2 多 拓扑 原理 

IS-IS 多 拓扑 模式 允许 IS-IS 在 单个 区 域 或 整个 路 由 域内 计算 和 维护 多 个 独立 的 拓 
扑 ， 比 如 IPv4 拓扑 和 IPv6 拓扑 。 每 个 拓扑 都 使 用 自己 的 独立 的 SPF 进程 计算 和 维护 路 
由 信息 ， 这 种 特性 打破 了 单 拓扑 模式 的 一 些 限制 ， 比 如 路 由 器 的 接口 可 以 配置 不 同 协议 
的 地 址 ， 每 个 接口 可 支持 不 同 的 网 络 层 协议 。 并 且 在 多 拓扑 模式 下 ， 可 以 分 别 为 IPv4 和 
IPv6 单独 定义 不 同 的 度量 值 ， 注 意 ， 多 拓扑 模式 下 必须 使 用 宽度 量 ， 因 为 IPv6 仅 支 持 
宽度 量 。 > 

在 单个 区 域 或 整个 路 由 域内 的 路 由 器 必 < 三 
须 使 用 相同 的 拓扑 模式 ， 要 么 单 拓扑 模式 ， 要 
么 多 拓扑 模式 。 运行 在 多 拓扑 模式 下 的 路 由 器 
不 能 识别 运行 单 拓扑 模式 的 路 由 器 具有 支持 
IPv6 的 属性 ， 因 此 会 导致 IPv6 的 路 由 黑洞 。 PE 


IPv4/IPvO Weg 





以 图 4-43 的 网 络 为 例 介绍 一 下 多 拓扑 运 
行 的 原理 。 


图 4-43 IS-IS 多 拓扑 组 网 


如 图 4-43 所 示 ，R1、R3 和 R4 均 支 持 IPv4 
和 IPv6，R2 只 支持 IPv4， 不 能 转 IPv6 报 文 。 图 中 链 路 上 的 数字 表示 开销 值 。 如 果 RI1 不 支 
持 IS-IS MT， 进 行 SPF 计算 时 只 考虑 单一 的 整体 拓扑 ， 则 R1 到 R3 的 最 短路 径 是 R1 一 R2 
一 R3, 但 由 于 R2 不 支持 IPv6， 所 以 R1 发 送 的 IPv6 报 文 将 无 法 通过 R2 到 达 R3。 当 RI 向 
R3 发 送 的 是 IPv4 报 文 时 ， 则 可 以 使 用 该 路 径 正 常 转发 到 R3， 如 图 4-44 所 示 。 

如 果 在 R1 上 使 能 了 IS-IS MT， 那 么 此 时 R1 在 进行 SPF 计算 时 会 根据 不 同 的 拓扑 
分 别 计算 。 当 R1 需要 发 送 IPv6 报 文 给 R3 时 ，R1 只 考虑 IPv6 链 路 来 确定 IPv6 报 文 转 
发 路 径 ， 则 R1 一 R4 一 R3 路 径 被 选 为 从 R1 到 R3 的 IPv6 最 短路 径 。IPv6 报 文 被 正确 转 
发 。 当 R1 需要 发 送 IPv4 报 文 给 R3 时 , R1 根据 SPF 计算 结果 ,使 用 的 是 R1~R2 一 R3， 
如 图 4-45 所 示 。 
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Mixed topology for IPv4 and IPv6 


3 IPv4 reachable 
IPv4 


IPv6 dropped 





IPv4/IPv6 IPv4/IPv6 


CW Mixed topology 


IPv4/IPv6 


图 4-44 多 拓扑 组 网 的 报 文 转发 


Separate topologies for IPv4 and IPv6 


IPv6 reachable 


IPv6 IPv6 
IPv4 和 到 IPv4 要 
(o) Pv4 Kotte yp reachable 


IPv4 topology IPv6 topology 


图 4-45 多 拓扑 组 网 的 报 文 转发 





4.8.3.3 MTID 和 TLV 

1. MT ID 

多 拓扑 ID (MTID) 用 来 标识 不 同 的 拓扑 ， 一 般 是 接口 上 配置 的 ， 一 个 接口 可 以 属 
于 一 个 或 多 个 拓扑 。 在 点 对 点 网 络 中 ， 要 求 链 路 上 的 两 台 路 由 器 具有 相同 的 MT ID 才能 
形成 邻接 关系 ; 而 在 广播 网 络 中 ， 邻 接 关 系 的 建立 跟 接口 上 的 MT ID 是 没关系 的 。 在 
LSP 中 携带 路 由 拓扑 信息 时 ， 会 标记 具体 的 MT ID， 以 使 SPF 算法 能 够 区 分 出 这 些 信息 
是 来 自 哪 个 拓扑 的 。 在 路 由 器 上 会 为 每 个 拓扑 计算 和 维护 独立 的 路 由 表 。 下 表 列 出 了 用 
于 JIS-IS 的 MTID 及 其 代表 的 含义 ， 目 前 仅 文 持 MT ID#0 和 MT ID#。 


MT ID#0 标准 默认 ) 拓扑 > 
MT ID#1 IPv4 带 内 管理 (in-band management) 

MT ID#2 IPv6 路 由 拓扑 

MTID#3 IPv4 组 播 路 由 拓扑 

MT ID#4 IPv6 组 播 路 由 拓扑 


MT ID#S-#3995 IETF， 统 一 预 留 
MT ID#3996-#4095 ”保留 ， 用 于 开发 、 实 验 以 及 专用 特性 [RFC3692] 
2. TLV 


为 支持 多 拓扑 特性 ，IS-IS 扩展 出 了 三 个 新 的 TLV， 由 于 IS-IS 的 多 拓扑 路 由 选择 还 
在 草案 中 ， 华 为 设备 目前 还 不 支持 该 特性 ， 所 以 这 里 不 详细 介绍 这 些 TLV 的 格式 ， 有 兴 
趣 的 读者 可 以 参阅 一 下 相关 的 资料 : 

e。 多 拓扑 ISTLV (类 型 222); 

e。 多 拓扑 TLV 〈 类 型 229 ); 
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e。 多 拓扑 可 达 的 IPv4 前 缀 〈 类 型 235); 
e 多 拓扑 可 达 的 IPv6 前 级 (类 型 237)。 
表 4-3 输出 内 容 显示 了 这 几 种 TLV 的 功能 及 携带 的 报 文 。 
表 4-3 TLYV 的 功能 及 携带 的 报 文 
MT IS TLV 与 Extended IS Areachablility TLV 


(类 型 为 22) 的 格式 相同 , 没有 子 TLV 时 , 在 
相同 MT 中 ， 它 最 多 能 包含 23 个 邻居 


用 于 描述 发 送 接口 所 属于 的 拓扑 ; 如 果 在 
多 拓扑 TLV Hello 报 文 没有 携带 多 拓扑 TLV, 则 接口 被 认 
为 是 缺 省 拓扑 中 ; 在 LSP 报 文中 ， 该 TLV 可 
以 分 别 为 每 个 拓扑 关联 ATT、OL 位 


通告 IP 路 由 前 缀 ， 每 个 路 由 前 级 都 与 具体 的 
拓扑 关联 


4.8.4 ”IS-IS 在 IPv6 网 络 中 的 配置 案例 


1. 组 网 介绍 
如 图 4-46 所 示 ， 在 IPv6 拓扑 网 络 中 有 4 台 路 由 器 ， 现 要 求 在 这 4 台 路 由 器 上 实现 
网 络 互联 ， 并 且 因 为 RouterA 和 RouterB 性 能 相对 较 低 ， 所 以 还 要 使 这 两 台 路 由 器 处 理 















携带 该 TLV 的 报 文 





多 拓扑 IS TLV Hello 


Hello, LSP 







多 拓扑 可 达 的 TLV， 包 括 多 
拓扑 可 达 的 IPv4 前 级 TLV 和 
多 拓扑 可 达 的 IPv6 前 级 TLV 





















相对 较 少 的 数据 信息 。 
‘多 = GEIo0 

i RouterA : 

:Ll '\ {GE2/0/0 
GE1/0/0 i GE3/0/0 ; 20::1/64 
10:1::1/64 130::1/64 <> 

: : GE1/0/0 由 BD : 
E2/0/0 : i 
S ; 30: :2/64 RouterD | 
IS-IS : L2 : 
Areal0 : IS-IS 
所 Area20 二 
RN RouterB 光 


图 4-46 配置 IS-IS 的 IPv6 特性 基本 功能 组 网 图 
2. 配置 步骤 
(1) 使 能 IPv6 转发 能 力 ， 配 置 各 接口 的 IPv6 地 址 ， 以 RouterA 为 例 ， 其 他 路 由 器 
的 配置 过 程 相 同 ， 不 再 著述 。 
<Huawei> system-view 
[Huawei] sysname RouterA 
[RouterA] ipv6 
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[RouterA] interface gigabitethernet 1/0/0 
[RouterA-GigabitEthernetl/0/0] ipv6 enable 
[RouterA-GigabitEthernet1/0/0] ipv6 address 10:1::2/64 
(2) 配置 IS-IS。 

# 配置 RouterA。 

[RouterAj isis 1 

[RouterA-isis-1] is-level level-1 

[RouterA-isis-1] network-entity 10.0000.0000.0001.00 
[RouterA-isis-1] ipv6 enable 

[RouterA-isis-1] quit 

[RouterA] interface gigabitethernet 1/0/0 
[RouterA-GigabitEthernet1/0/0] isis ipv6 enable 1 
[RouterA-GigabitEthernet1/0/0] quit 

# 配置 RouterB。 

[RouterB] isis 1 

[RouterB-isis-1] is-level level-1 

[RouterB-isis-1] network-entity 10.0000.0000.0002.00 
[RouterB-isis-1] ipv6 enable 

[RouterB-isis-1] quit 

[RouterB] interface gigabitethernet 1/0/0 
[RouterB-GigabitEthernetl/0/0] isis ipv6 enable 1 
[RouterB-GigabitEthernetl/0/0] quit 

# 配置 RouterC。 

[RouterC] isis 1 

[RouterC-isis-1] network-entity 10.0000.0000.0003.00 
[RouterC-isis-1] ipv6 enable 

[RouterC-isis-1] quit 

[RouterC] interface gigabitethernet 1/0/0 
[RouterC-GigabitEthernetl1/0/0] isis ipv6 enable 1 
[RouterC-GigabitEthernet1/0/0] quit 

[RouterC] interface gigabitethernet 2/0/0 
[RouterC-GigabitEthernet2/0/0] isis ipv6 enable 1 
[RouterC-GigabitEthernet2/0/0] quit 

[RouterC] interface gigabitethernet 3/0/0 
[RouterC-GigabitEthernet3/0/0] isis ipv6 enable 1 
[RouterC-GigabitEthernet3/0/0] isis circuit-level level-2 
[RouterC-GigabitEthernet3/0/0] quit 

# 配置 RouterD。 

[RouterD] isis 1 

[RouterD-isis-1] is-level level-2 

[RouterD-isis-1] network-entity 20.0000.0000.0004.00 
[RouterD-isis-1] ipv6 enable 
[RouterD-isis-1] quit 

[RouterD] interface GigabitEthernet 1/0/0 
[RouterD-GigabitEthernetl/0/0] isis ipv6 enable 1 
[RouterD-GigabitEthernetI/0/0] quit 

[RouterD] interface GigabitEthernet 2/0/0 
[RouterD-GigabitEthernet2/0/0] isis ipv6 enable 1 
[RouterD-GigabitEthernet2/0/0] quit 


验证 结果 
显示 RouterA 的 IS-IS 路 由 表 。 


[RouterA] display isis route 
IPV6 Dest. ExitInterface NextHop Cost Flags 
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10:1::/64 ~ GigabitEthermetl/0/0 Direct 10 D/L/- 
10:2::/64 GigabitEthernet1/0/0 FE80::A83E:0:3ED2:1 20 A/-/- 
Flags: D-Direct, A-Added to URT, L-Advertised in LSPs, S-IJGP Shortcut, 
U-Up/Down Bit Set 


显示 RouterC 的 IS-IS 邻居 的 详细 信息 。 
[RouterC] display isis peer verbose 
Peer information for IS-IS(1) 


System Id Interface Circuit Id State HoldTime Type PRI 
0000.0000.0001 GE1/0/0 0000000001 Up 24s Ll 

MT IDs supported :0(UP) 

Local MT IDs :0 

Area Address(es) S10 

Peer IPv6 Address(es): FE80::996B:0:9419:1 

Uptime :00:44:43 

Adj Protocol :IPV6 

RestRt Capable -YES 

Suppressed Adj :NO 

Peer System Id : 0000.0000.0001 
0000.0000.0002 GE2/0/0 0000000001 Up 28s 工 1 

MT IDs supported : O(UP) 

Local MT IDs :0 

Area Address(es) :10 

Peer IPv6 Address(es): FE80::DC40:0:47A9:1 

Uptime : 00:46:13 

Adj Protocol :IPV6 

RestRt Capable YES 

Suppressed Adj :NO 

Peer System Id : 0000.0000.0002 3” 
0000.0000.0004 GE3/0/0 0000000001 Up 24s L2 

MT IDs supported :0(UP) 

Local MT IDs :0 

Area Address(es) :20 

Peer JPv6 Address(es): FE80::F81D:0:1E24:2 

Uptime :00:53:18 

Adj Protocol :IPV6 

RestRt Capable :YES 

Suppressed Adj :NO 

Peer System Id : 0000.0000.0004 


Total Peer(s): 3 
显示 RouterC 的 IS-IS LSDB 的 详细 信息 。 
[RouterC] display isis lsdb verbose 

Database information for IS-IS(1) 


Level-1 Link State Database 


LSPID SeqNum Checksum Holdtime Length ATT/P/OL 
0000.0000.0001.00-00 0x0000000c 0x4e06 1117 113 3/0/0 
SOURCE 0000.0000.0001.00 

NLPID IPV6 


AREAADDR 10 

INTF ADDR V6 10:1::2 

Topology StandRd 

NBR ID 0000.0000.0003.00 COST: 10 

IPV6 10:1::/64 COST: 10 


I 236 


0000.0000.0002.00-00 0x00000009 0x738c 1022 83 3/0/0 
SOURCE 0000.0000.0002.00 
NLPID IPV6 


AREAADDR 10 

INTF ADDR V6 10:2::2 

Topology StandRd 

NBR ID 0000.0000.0003.00 COST': 10 

IPV6 10:2::/64 COST: 10 
0000.0000.0003.00-00* 0x00000020 0x6b10 771 140 1/0/0 

SOURCE 0000.0000.0003.00 

NLPID IPV6 

AREAADDR 10 

INTF ADDR V6 30::1 

INTF ADDR V6 10:2::1 

INTF ADDR V6 10:1::1 

Topology StandRd 


NBR ID 0000.0000.0002.00 “COST: 10 

NBR DD 0000.0000.0001.00 ”COST: 10 ， 
IPV6 10:2;:/64 COST: 10 
IPV6 10:1::/64 COST: 10 


Total LSP (s) :3 


* (In TLV) -Leaking Route,* (By LSPID) -Self LSP, +-Self LSP (Extended) ， 
ATT-Attached, P-PRtition, OL-Overload 
Level-2 Link State Database 


LSPID Seq Num Checksum Holdtime Length ATT/P/OL 
0000.0000.0003.00-00* 0x00000017 ” 0x61b4 771 157 3/0/0 
SOURCE 0000.0000.0003.00 
NLPID IPV6 


AREA ADDR 10 
INTF ADDR V6 30::1 
INTF ADDR V6 10:2::1 
INTF ADDR V6 10:1::1 
Topology StandRd 


NBR ID 0000.0000.0004.00 ”COST: 10 

IPV6 30::/64 COST: 10 

IPV6 10:2::/64 COST: 10 

IPV6 10:1::/64 COST: 10 。 
0000.0000.0004.00-00 0x0000000b Ox6dfa 1024 124 3/0/0 

SOURCE 0000.0000.0004.00 

NLPID IPV6 


AREAADDR 20 

INTF ADDR V6 30::2 

INTF ADDR V6 20::1 

Topology StandRd 

NBR ID 0000.0000.0003.00 COST': 10 

NBR DD 0000.0000.0005.00 ”COST: 10 

IPV6 30::/64 COST: 10 

IPV6 20::/64 COST: 10 
Jotal LSP (Cs) ;2 


* (In TLV) -Leaking Route,* (By LSPID) -Self LSP, +-Self LSP, (Extended) ， 
ATT-Attached, P-PRtition, OL-Overload 
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4.9 OSPF 与 1S-IS 的 对 比 


OSPF 与 IS-IS 的 对 比如 下 。 

1. 相同 点 

。 ”两 者 均 是 链 路 状态 路 由 协议 ， 路 由 器 之 间 均 需要 通过 扩散 链 路 状态 信息 来 相互 

学 习 路 由 和 拓扑 信息 ， 并 且 都 使 用 SPF 算法 计算 最 佳 路 由 。 

两 者 均 支 持 IP 无 类 路 由 选择 。 

两 者 均 定 义 了 邻接 关系 及 建立 邻接 的 过 程 。 

两 者 在 广播 类 型 网 络 中 均 定 义 了 指定 路 由 器 及 其 功能 。 

两 者 都 基于 区 域 设 计 ， 都 支持 层次 化 网 络 设计 。 

不 同 点 

1) 基本 点 比较 。 

IS-IS 同时 支持 ISO CLNP 和 卫 环境， 而 OSPF 只 支持 卫 环境 。 

IS-IS 直接 基于 数据 链 路 层 运行 ， 报 文 封装 在 数据 链 路 层 的 帧 中 ， 对 应 的 以 太 网 

类 型 是 0xFEFE; 而 OSPF 是 在 卫 之 上 运行 的 ， 报 文 封 装 在 IP 报 文 中 ， 所 以 报 

文 是 在 网 络 层 传输 的 ， 协 议 号 为 89。 

e。 JIS-IS 仅 支 持 点 对 点 和 广播 链 路 ， 不 支持 NBMA， 如 果 要 支持 NBMA， 必 须 将 
NBMA 配置 为 点 对 点 或 广播 链 路 类 型 ，OSPF 支持 点 对 点 、 广 播 、NBMA 和 点 
对 多 点 四 种 网 络 。 

。 JIS-IS 路 由 器 属于 某 个 特定 区 域 ， 因 为 是 基于 设备 划分 区 域 的 ; 而 OSPF 基于 接 
口 划分 区 域 ， 所 以 路 由 器 可 以 属于 多 个 区 域 。 

。 ”两 者 都 支持 多 区 域 设计 ， 但 IS-IS 区 域 的 边界 是 在 链 路 上 的 ， 而 OSPF 在 设备 上 。 

。 默认 情况 下 ，IS-IS 的 区 域 是 末梢 区 域 ， 因 为 没有 其 他 区 域 的 路 由 ， 需 要 通过 路 

由 泄露 ;而 OSPF 的 区 域 默认 不 是 末梢 区 域 。 

邻接 关系 比较 。 

e JIS-IS 形成 邻接 关系 的 过 程 比 较 简 单 〈 在 2.2 节 我 们 分 别 讲 述 了 广播 和 点 对 点 链 
路 下 的 邻接 关系 建立 过 程 )， 同 时 IS-IS 邻接 关系 分 成 level-1 和 level-2 两 个 层 
次 ; OSPF 邻接 关系 的 建立 需要 经 历 多 个 不 同 的 阶段 ， 过 程 比较 复杂 。 

e  IS-IS 形成 邻接 关系 时 ， 不 要 求 邻居 Hello 包 中 的 计时 器 一 致 ， 而 OSPF 必须 要 
求 一 致 。 

e。 JIS-IS 没有 备份 DIS, 优先 级 为 0 的 接口 也 可 以 成 为 DIS, 并 且 DIS 可 以 被 抢占 ; 
而 OSPF 有 备份 DR， 优 先 级 为 0 的 接口 不 能 成 为 DR，DR 不 支持 抢占 。 

。 IS-IS 在 广播 网 络 中 的 所 有 路 由 器 之 间 都 形成 邻接 关系 ; OSPF 在 广播 网 络 中 的 
路 由 器 只 跟 DR 和 BDR 形成 邻接 关系 。 

(3) 链 路 状态 数据 库 同步 比较 。 

。 IS-IS 数据 库 同步 是 在 邻接 关系 建立 好 之 后 进行 的 , 而 OSPF 的 数据 库 同 步 是 在 
邻接 关系 建立 完成 之 前 就 开始 了 。 
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e IS-IS 的 一 个 LSP 可 以 携带 多 个 TLV， 同 时 承载 多 条 路 由 前 缀 和 拓扑 信息 ， 可 
以 节省 开销 ; 而 OSPF 只 有 LSA1 和 LSA 2 能 在 一 个 LSA 中 同时 携带 多 条 路 由 
前 级 和 拓扑 信息 ，LSA 3、LSA 4、LSA5 以 及 LSA7 只 能 携带 一 条 路 由 前 级 。 

e JIS-IS 在 点 对 点 上 的 链 路 状态 信息 扩散 是 可 靠 的 , 而 在 广播 链 路 上 的 扩散 是 不 可 
靠 的 ;， OSPF 在 不 同 网 络 中 的 扩展 都 是 可 靠 的 。 

e。 IS-IS 的 LSP 只 有 路 由 器 LSP 和 伪 节 点 LSP,， 数据 库 结构 简单 ， 定 位 故障 容易 ; 
OSPF 的 LSA 种 类 很 多 ， 数 据 库 结构 复杂 ， 定 位 故障 困难 。 

。 IS-IS 的 LSP 的 老化 时 间 是 从 最 大 值 递减 (LSP 最 大 年 龄 =1200s， 刷 新 间 
隔 =900s， 默 认 值 可 以 修改 ); 而 OSPF 的 LSA 的 老化 时 间 是 从 0 开始 递增 (最 
大 年 龄 =36008， 刷 新 周期 =1800s， 默 认 值 不 可 修改 )。 

(4) 路 由 计算 比较 。 

e JIS-IS 将 前 级 作为 叶子 ， 当 叶子 发 生变 化 时 可 以 用 PRC 来 更 新 叶子 ， 而 不 需要 进行 
SPF 计算 ， 在 一 个 大 区 域内 可 以 节省 处 理 资 源 ， 而 OSPF 是 将 前 级 作为 SPF 的 节 
点 ， 叶 子 发 生变 化 也 会 触发 SPF 计算 ， 在 一 个 不 稳定 的 网 络 中 ,协议 开销 比较 大 。 

e IS-IS 接口 支持 多 种 开销 (默认 开销 、 代 价 开销 、 错 误 开销 和 延迟 开销 )， 缺 省 
情况 下 ， 接 口上 只 支持 默认 开销 ， 所 有 接口 默认 开销 都 为 10; OSPF 的 接口 根据 
带宽 计算 出 开销 (范围 是 0 一 65535 )。 


间 演 : 

IS-IS 和 OSPF 只 是 在 初次 路 由 计算 时 使 用 Full SPF (Dijkstra) ， 之 后 任何 变化 都 只 计算 受 
影响 的 节点 周边 拓扑 ， 这 就 是 iSPF ( 增 量 SPF) ; 至 于 iSPF 树 上 节点 上 的 叶子 路 由 发 生变 
化 ， 则 只 需要 PRC 计算 ， 即 只 对 那 片 叶子 (路 由 ) 做 计算 即 可 ， 大 大 减少 CPU 的 计算 负 
荷 . 但 是 ，OSPF 在 区 域内 任何 路 由 变化 (需要 扩散 新 的 LSA1 和 LSA2) 时 都 会 触发 iSPF 
计算 ， 如 果 是 区 域 间或 外 部 路 由 (LSA3/4/5/7) 发 生变 化 只 需要 进行 PRC， 而 IS-IS 在 任何 
路 由 变化 时 都 只 进行 PRC。 


(5) 扩展 性 及 安全 性 比较 。 

e IS-IS 协议 报 文 结构 基于 TLV，Hello 和 LSP 报 文 都 可 携带 不 同 的 TLV， 后 期 增 
加 新 特性 时 易于 扩展 ; 而 OSPF 报 文 不 基于 TLV 编码 ， 增 加 新 特性 时 需要 开发 
新 的 LSA 或 报 文 ， 比 如 OSPF 后 来 定义 了 不 透明 LSA (LSA9、LS10、LSA11) 
来 支持 新 的 应 用 程序 的 信息 。 

e IS-IS 比 OSPF 使 用 更 少 的 LSP 和 更 多 的 PRC 计算 ,在 类 似 规模 的 网 络 中 ,IS-IS 
消耗 的 资源 会 更 少 ， 所 以 单 区 域 的 IS-IS 网 络 支 持 的 设备 数据 更 多 。 

。 IS-IS 报 文 直接 在 数据 链 路 层 传递 , 所 以 不 易 遭 受 欺 骗 或 DOS 攻击 ; OSPF 报 文 
是 基于 IP 之 上 封装 的 ， 所 以 容易 遭受 IP 欺骗 或 DOS 攻击 。 


— 


4.10 ”思考 题 


1. 为 什么 要 有 DR 和 DIS， 如 果 没 有 会 怎么 样 ? 
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2. DIS 为 什么 可 以 支持 抢占 ? 
3. CSNP 中 包含 哪些 内 容 ， 它 和 OSPF 的 DBD 报 文 有 什么 不 同 ? 
4. IS-IS 在 帧 中 继 环境 下 使 用 什么 网 络 类 型 ? 
5. 为 什么 P2P 使 用 PSNP 确认 ， 而 广播 网 络 不 用 ? 
6. OSPF 和 IS-IS， 哪 种 协议 支持 的 路 由 条 目 更 多 ? 为 什么 ? 
7. OSPF 的 LSA 有 很 多 类 型 ， 为 什么 IS-IS 的 LSP 不 需要 多 种 类 型 ? 
8. 请 详细 描述 IS-IS 与 OSPF 有 哪些 区 别 ? 
9. 什么 是 IS-IS 多 拓扑 ? 它 解决 了 什么 问题 ? 
10. 为 什么 说 IS-IS 更 加 适合 于 扁平 组 网 ? 
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本 章 介 绍 了 ACL、ip-prefiz、filter-policy 和 route-policy 等 工具 的 使 用 ， 并 通过 实例 阐 
述 如 何 使 用 上 述 工具 实现 路 由 的 过 滤 、 引 入 及 优化 等 。 


本 章 包含 以 下 内 容 : 


© 使 用 ACL 和 ip-prefix 匹配 路 由 
© 路 由 策略 和 策略 路 由 的 对 比 
© 聚合 路 由 和 默认 路 由 的 使 用 
© 路 由 引入 的 原理 及 案例 分 析 
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5.1 ACL 和 ip-prefix 


5.1.1 ACL 


5.1.1.1 ACL 的 使 用 原理 

ACL (access-list) 访问 控制 列表 ， 是 用 于 定义 匹配 规则 的 过 滤器 列表 ， 其 种 类 很 多 ， 
根据 类 型 可 分 为 命名 的 ACL 和 编号 的 ACL。 基 于 匹配 报 文 能 力 的 大 小 划分 ， 可 分 为 基 
本 ACL 和 高 级 ACL， 根 据 匹 配 的 内 容 划 分 ，ACL 可 以 用 来 匹配 数据 报 文 的 头 部 字段 ， 
它 也 可 以 用 来 匹配 路 由 更 新 中 的 路 由 条 目 。 

ACL 是 一 组 顺序 排列 的 过 滤器 ， 每 条 过 滤器 是 由 匹配 的 条 件 和 动作 组 成 的 ， 动 作 可 
以 为 允许 或 者 拒绝 。 匹 配 条 件 可 以 决定 匹配 的 内 容 ， 这 些 条 件 可 以 是 数据 包 的 源 地 址 、 
目的 地 址 、 协 议 类 型 、TOS、 端 口号 等 。 

ACL 定义 在 全 局 ,真正 让 它 发 挥 作用 ， 需 要 被 其 他 工具 调用 才能 使 用 ,， 仅 配置 ACL 
是 无 法 发 挥 其 匹配 功能 的 。 调 用 工具 有 很 多 ， 如 filter-policy、route-policy、traffic-filter 
等 工具 ， 不 同 工 具 代表 不 同 的 含义 。 

ACL 在 网 络 中 用 处 非常 多 ， 根 据 其 定义 的 过 滤器 识别 报 文 或 路 由 ， 放 行 、 过 滤 报 文 
或 路 由 , 达到 保护 内 网 安全 或 控制 路 由 的 作用 。 如 为 防止 针对 IP 报 文 、TCP 报 文 等 攻击 ， 
在 企业 网 限制 用 户 可 以 在 特定 时 间 访 问 特定 网 络 的 资源 或 限定 网 络 的 上 下 行 带宽 等 。 

5.1.1.2 ACL 的 分 类 

1， 按 照 创建 ACL 的 命名 方式 分 为 : 

(1) 数字 型 ACL 

(2) 命名 型 ACL 

2. 按照 ACL 的 功能 分 为 : 

(1) 基于 接口 的 ACL (编号 范围 1000 一 1999) 

(2) 基本 ACL (编号 范围 2000 一 2999) 

(3) 高 级 ACL (编号 范围 3000~3999) 

(4) 二 层 ACL (编号 范围 4000~4999) 

5.1.1.3 ”过 滤器 工作 流程 

一 个 数据 包 进入 过 滤器 后 具体 的 操作 步骤 如 下 。 

(1) 数据 包 进 入 过 滤器 。 

(2) 查找 匹配 条 件 ， 如果 有 匹配 ， 再 执行 允许 或 者 拒绝 的 动作 。 

(3) 如 果 没 有 匹配 ， 将 向 下 移动 查找 下 面 的 匹配 条 件 并 重复 上 述 过 程 。 

下 面 举例 说 明 数 据 包 经 过 ACL 过 滤器 的 整个 过 程 ， 如 图 5-1 所 示 ， 数 据 包 进 入 过 滤 
器 ，ACL 将 会 按照 顺序 查找 第 一 个 匹配 条 件 。 源 地 址 为 1.1.1.1 的 数据 包 将 会 被 匹配 ， 而 
执行 动作 为 deny， 最 终 该 数据 包 被 丢弃 掉 。 接 着 按 顺 序 查找 第 二 个 匹配 条 件 ， 如 果 源 地 
址 为 172.16.1.1 网 段 ， 目 标 地 址 为 192.168.1.1 网 段 的 数据 包 将 会 被 匹配 到 ， 而 执行 动作 
为 permit， 因 此 所 有 满足 该 条 件 的 数据 包 将 会 从 接口 G0/0/1 转发 出 去 。 第 三 个 匹配 条 件 
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中 匹配 到 了 源 地 址 为 2.2.2.2、 目 标 地 址 为 3.3.3.3 且 目 标 端口 为 80 的 数据 包 ， 执 行动 作 
为 deny， 因 此 所 有 满足 条 件 的 数据 包 将 被 丢弃 掉 。 当 其 他 的 数据 包 在 没有 被 上 述 三 个 条 
件 匹 配 到 时 ， 默 认 将 会 被 允许 通过 。 


源 IP: 2.2.2.2 






GD 法? 1.111 Deny 


源 IP: 172.16.1.1 | 目标 IP: 192.168.1.1| | Permit | 
源 IP: 2222 | 目标 IP: 3.3.3.3 | 源 陛 口 : 3230 | 目标 端口 : 80 





© 
© 









GO/0/0 






Ee 丢弃 数据 报 文 


图 5-1 过 滤器 的 工作 流程 图 


说 明 : 

在 华为 VRP 平台 上 使 用 ACL 过 滤 数 据 包 时 ， 没 有 被 匹配 到 的 数据 包 ， 都 会 默认 允许 通 
过 ， 高 级 ACL 不 能 用 于 匹配 路 由 ， 只 能 用 于 过 滤 数 据 包 基本 ACL 可 以 用 于 匹配 路 由 ， 
也 可 以 过 滤 数 据 包 。 


5.1.1.4 基本 ACL 

ACL 应 用 比较 广泛 ， 在 IPv4 和 IPv6 网 络 中 都 可 以 使 用 ， 可 以 用 于 匹配 出 二 层 的 
MAC 地 址 、 三 层 的 人 P 地 址 、 协 议 号 、TOS 等 ， 也 可 以 匹配 出 四 层 的 端口 号 。 下 面 列举 
出 ACL 的 分 类 及 每 个 类 别 的 功能 介绍 。 

配置 基本 ACL 时 ， 需 要 先 创建 一 个 基本 ACL， 基 本 ACL 编号 acl-number 的 范围 是 
2000 一 2999。 配 置 基本 ACL 分 为 两 步 ， 首 先 创建 ACL 的 编号 ， 然 后 再 配置 规则 。 

示例 : 基本 ACL 

第 1 步 : 创建 基本 ACL。 


acl [ number ] acl-number [ match-order { auto | config } ] 

说 明 : 

首先 进入 到 基本 ACL 视图 ， 创 建 数字 型 的 基本 ACL， 也 可 以 将 数字 换 成 名 称 acl name 
ac/-number[ match-order { auto | config } ]， 写 成 命名 型 的 ACL。match-order， 代表 匹配 顺序 ， 
有 auto 和 config 两 种 ，auto 是 自动 排序 ， 该 方式 会 按照 “深度 优先 ”原则 ， 越 精确 的 地 址 
越 优先 匹配 。config 为 配置 顺序 ， 用 户 可 以 自行 定义 ， 按 照 规 则 编号 (rule-id) 从 小 到 大 的 
顺序 进行 匹配 。 

第 2 步 : 配置 基本 ACL 的 规则 。 


rule [rule-id] {deny|permit} [source {source-address source-wildcard | any } | time-range time-name |vpn-instance 
vpn-instance-name| [ fragment | none-first-fragment ] ] 
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说 明 : 
基本 ACL 可 以 通过 配置 rule 规则 来 匹配 报 文 信息 。 该 规则 可 以 多 次 配置 来 实现 对 报 文 
的 分 类 ， 可 以 进行 添加 、 修 改 、 删 除 。 但 是 配置 规则 时 注意 顺 排 列 顺序 ， 优 先 将 精确 的 
地 址 在 前 面 匹配 ， 模 糊 的 地 址 放 在 后 面 匹配 。 以 免 造 成 矛盾 或 者 包含 的 错误 关系 ， 例 如 
在 rule 10 中 permit source 为 172.16.0.0 0.0.255.255， 而 在 rule 20 中 deny source 为 172.16.1.0 
0.0.0.255。 这 两 者 就 存在 包含 的 关系 ,rule 10 中 包含 了 rule 20, 但 是 动作 分 别 使 用 了 permit 
和 deny， 这 将 导致 rule 20 不 会 生效 。 


e rule-id: 自动 生成 ， 初 始 步 长 为 5S， 按 照 倍数 往 后 累加 ， 也 可 以 自 定 义 步 长 。 

。 deny | permit: 指定 拒绝 或 允许 符合 条 件 的 数据 包 。 

。 ”source-address: 表示 源 地 址 。 

e ”source-wildcard: 表示 指定 源 地 址 的 通配符 ，any 表示 任意 源 地 址 ， 也 可 以 
用 0.0.0.0 255.255.255.255 来 表示 。 

e time-range: 用 来 规定 ACL 生效 的 时 间 段 。 

。 vpn-instance: 用 来 指定 ACL 规则 匹配 报 文 的 VPN 实例 名 称 。 

。 fragment: 用 来 对 分 片 的 报 文 进行 匹配 。 如 果 携 带 了 该 参数 ， 被 分 片 的 数据 包 


将 会 被 匹配 到 。 

。 none-first-fragment: 用 来 对 非 首 片 分 片 报 文生 效 ， 如 果 携 带 参数 则 说 明 只 用 来 
匹配 非 首 片 报 文 。 

基本 ACL 的 匹配 原则 : 


1. 带 VPN 实例 的 规则 优先 

2. 源 耳 地址 范围 小 的 优先 

3. Rule ID 小 的 优先 

5.1.1.5 高 级 ACL 

高 级 ACL 可 以 根据 源 卫 地 址 、 目 的 IP 地 址 、IP 优先 级 、ToS、DSCP、 了 P 协议 类 
型 、ICMP 类 型 、TCP 源 端口 /目的 端口 、UDP 源 端口 /目的 端口 号 等 信息 对 IPv4 报 文 进 
行 分 类 。 配 置 高 级 ACL 时 ， 需 要 先 创建 一 个 高 级 ACL， 高 级 ACL 编号 acl-number 的 范 
围 是 3000 一 3999。 

高 级 ACL 通过 rule (规则 ) 匹配 报 文 的 信息 ， 实 现 对 报 文 的 分 类 ， 因 此 创建 高 级 
ACL 以 后 ， 需 要 配置 高 级 ACL 的 规则 。 在 ACL 中 添加 新 的 规则 时 ， 不 会 影响 已 经 存在 
的 规则 ;对 已 经 存在 的 规则 进行 编辑 时 ， 如 果 新 配置 的 规则 内 容 与 原 规则 内 容 存在 冲 
突 ， 则 冲突 的 部 分 由 新 配置 的 规则 内 容 代 替 ， 建 议 在 编辑 一 个 已 存在 的 规则 前 ， 先 将 
旧 的 规则 删除 ， 再 创建 新 的 规则 ， 和 否则 配置 结果 可 能 与 预期 的 效果 不 同 。 此 外 ， 配 置 
规则 时 ， 如 果 不 同 的 规则 之 间 存 在 矛盾 或 包含 的 关系 ， 请 注意 规则 的 匹配 顺序 ， 防 止 
出 现 错误 配置 。 

第 1 步 : 创建 高 级 ACL。 


acl[ number ] aci-number [ match-order { auto | config } ] 


说 明 : 
与 创建 基本 ACL 配置 相同 , 创建 数字 型 或 命名 型 ACL, 但 注意 编号 的 范围 , 3000 ~ 3999 
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属于 高 级 ACL。 
第 2 步 : 配置 高 级 ACL 的 规则 。 


rule [ rule-id ] { deny | permit } ip [ destination { CC address | any } | Source { source-address | any } |time-range 
time-name | [ dscp dscp | [ tos tos | ] 


说 明 : 
在 高 级 的 ACL 可 以 根据 数据 包 的 源 IP 地 址 、 目 的 IP 地址 、 源 端口 、 目 标 端口 、 协 议 
等 内 容 来 制定 规则 。 


e ip: 表示 协议 类 型 ， 此 处 可 以 指定 特定 的 协议 ， 比 如 TCP/UDP/ICMP 等 ， 如 果 
是 ip 则 代表 所 有 的 ip 协议 ， 包 含 了 TCP/UDP/ICMP 等 。 

。 time-range: 表示 时 间 段 。 

e -dscp: 用 于 匹配 数据 包 时 指定 区 分 服务 代码 点 (Differentiated Services Code 
Point)。 也 可 以 使 用 优先 级 〈precedence) 参数 ， 但 是 只 能 选择 其 一 ， 两 者 不 能 
同时 配置 。 

。 tos: 用 于 定义 服务 类 型 字段 。 数 值 在 0 一 15 之 间 。 

高 级 ACL 的 匹配 原则 : 

. 带 VPN 实例 的 

.指定 了 特定 耻 协议 类 型 

. 源 下 地址 范围 小 的 

目的 下 地 址 范围 小 的 

.端口 号 范围 小 的 
6. rule-id 小 的 
5.1.1.6 基于 时 间 ACL 
网 络 中 某 些 业务 应 用 ACL 时 需要 限制 在 一 定 的 时 间 范 围 内 生效 ， 比 如 在 企业 中 需 

要 限制 员工 工作 时 间 段 内 才能 浏览 互联 网 , 其 他 时 间 不 允许 访问 。 可 以 通过 ACL 为 用 户 

创建 生效 时 间 段 , 通过 在 规则 中 引用 时 间 段 信息 限制 ACL 生效 的 时 间 范 围 , 从 而 使 得 该 

业务 能 在 一 定 的 时 间 范 围 内 生效 。 
配置 示例 : 创建 时 间 段 

time-range time-name { siart-time to end-time days | from time!l datel [to time2 date2 | } 
time-range 可 以 用 来 定义 时 间 段 ， 具 体 字 段 描 述 如 下 。 
e time-name: 指定 时 间 的 名 称 。 
estart-time: 指定 开始 时 间 ， 格 式 为 hh:mm。 
eto: 表示 到 某 一 个 时 间 段 。 
。 end-time days: 指定 结束 时 间 ， 注 意 结束 时 间 必 须 大 于 开始 时 间 ， 如 果 没有 配 
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置 则 是 设备 能 够 配置 的 最 大 值 。 
efrom: 表示 从 某 一 个 时 间 段 开始 ，time 表示 时 间 ，date 表示 日 期 。 
配置 案例 : 


例 1: 创建 一 个 工作 时 间 段 (周一 至 周 五 》 dl 18: 00。 


[Huawei] time-range TIME1 9:00 to 18:00 working-day daily 
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例 2: 创建 一 个 绝对 时 间 段 时 间 从 2015/1/1 12: 00 一 2016/I1 12: 00 结束 。 
[Huaweiltime-range TIME2 fom 12:00 2015/1/1 to 12:00 2016/1/1 
5.1.1.7 案例 研究 ; 配置 基本 ACL 进行 访问 控制 


场景 描述 : 如 图 5-2 所 示 ， 有 三 个 PC 需要 访问 远 端 路 由 器 ， 通 过 基本 ACL 来 进行 
限制 源 端 PC 的 访问 ， 人 允许 PC-A 能 够 访问 到 路 由 器 ， 拒绝 PC-B 在 工作 时 间 段 访问 路 由 
器 ， 其 他 用 户 不 允许 访问 。 


172161.124 用 | 


PC-A 
PC-B 

172.16.2.1/24 a 
PC-C 





100.1.1.1/24 


172.16.3.1/24 


图 5-2 配置 基本 ACL 进行 访问 控制 
配置 命令 : 


[Router] time-range FTP 9:00 to 18:00 working-day daily 

[Router] acl 2000 

[Router-acl-basic-2000] rule 10 permit source 172.16.1.1 0 
[Router-acl-basic-2000] rule 20 deny source 172.16.2.1 0 time-range FTP 
[Router-acl-basic-2000] rule 30 deny source any 

[Router-acl-basic-2000] quit 

[Router] interface GigabitEthernet0/0/0 
[Router-GigabitEthernet0/0/0]traffic-filter inbound acl 2000 


说 明 : 

通过 配置 了 ACL 进行 访问 限制 , 允许 PC-A 主 机 任意 时 间 都 能 够 访问 远 端 路 由 器 , PC-B 
主机 在 每 天 的 工作 时 间 段 9:00 ~ 18:00 之 间 不 允许 访问 路 由 器 ,而 PC-C 主机 则 任何 时 间 
都 不 允许 访问 。 使 用 命令 traffic-filter 调用 ACL， 可 以 用 在 inbound (入 ) 和 outbound (出 ) 
方向 基本 ACL 和 高 级 ACL 都 可 以 使 用 该 命令 来 调用 ， 并 且 配 置 的 ACL 只 有 调用 后 才能 
生效 。 

总 涯 : 

本 例 中 rule 30 如 果 没 有 配置 ， 请 问 PC-C 是 否 能 够 允许 访问 路 由 器 呢 ? 

5.1.1.8 案例 研究 : 配置 高 级 ACL 进行 访问 控制 

场景 描述 : 如 图 5-3 所 示 ， 公 司 企业 网 通过 router 实现 部 门 之 间 的 连接 ， 要 求 配置 
高 级 ACL 禁止 销售 部 门 和 人 力 资 源 部 门 在 工作 时 间 段 〈9:00 一 18:00) 访问 财务 部 ， 禁 
止 人 力 资 源 部 远程 登入 到 财务 部 的 主机 , 而 经 理 室 可 以 在 任何 时 间 段 访问 财务 部 的 主机 。 

配置 命令 : 


[Router] time-range ACCESS 9:00 to 18:00 working-day daily 
[Router] acl 3000 

[Routeracl-adv-3000]rule permit ip source 10.5.8.8 0 destination any 

[Routeracl-adv-3000]rule deny ip source 10.5.20.0 0.0.0.255 destination 10.5.100.5 0 time-range ACCESS 
[Routeracl-adv-3000]rule deny tcp source 10.5.30.0 0.0.0.255 destination 10.5.100.5 0 destination-port eq 23 
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[Router-acl-adv-3000]rule deny source any 
[Router-acl-adv-3000]quit 

[Routerjinterface Ethernet 2/0/3 

[Router-Ethernet 2/0/3] traffic-filter outbound acl 3000 


了 财务 部 
.县 10.5.100.5/24 






销售 部 名 
10.5.20.0/24 10.5.8.8/24 


et 


人 力 资源 部 
10.5.30.0/24 


图 5-3 配置 高 级 的 ACL 


说 明 : 

(1) 基本 的 ACL 只 能 匹配 源 P 地 址 ， 而 高 级 ACL 能 够 匹配 出 数据 包 里 的 源 /目标 IP 地 
址 、 源 /目标 端口 号 、 协 议 等 信息 。 高 级 ACL 相 比 基本 ACL 能 够 更 加 精确 地 匹配 出 不 同 的 
数据 流 。 

(2) ACL 过 滤 数 据 流放 置 原则 :， 利用 ACL 过 滤 数 据 流 ， 在 接口 调用 ACL 时 ， 一 般 基本 
ACL 用 在 靠近 目标 的 位 置 ， 因 为 基本 ACL 不 能 匹配 出 目标 地 址 ， 若 想 过 滤 某 个 数据 流 ， 而 
太 靠 近 源 位 置 则 有 可 能 导致 该 源 IP 去 访问 其 他 目的 地 时 被 过 滤 。 而 高 级 ACL 尽量 用 在 靠 
近 源 的 位 置 ， 因 为 高 级 ACL 能 够 精确 地 表示 出 数据 流 ， 此 做 法 能 够 节省 链 路 带宽 的 占用 。 


5.1.1.9 通配符 

1. ACL 中 的 通配符 作用 

通常 在 定义 ACL 规则 时 ， 都 需要 用 到 通配符 。 通 配 符 也 被 称 为 反 掩 码 ， 使 用 全 255 
减 去 正 掩 码 得 出 的 就 是 反 掩 码 ， 例 如 192.168.1.0/24， 正 掩 码 为 24 位 ， 由 24 个 1 组 成 
(255.255.255.0)， 那 么 反 掩 码 就 是 255.255.255.255-255.255.255.0 得 出 的 反 掩 码 就 是 
0.0.0.255。 但 是 正 掩 码 必须 是 由 连续 的 1 来 组 成 的 ， 中 间 不 能 有 0 的 存在 ， 比 如 不 能 有 
192.255.255.0 这 样 的 掩 码 ， 正 掩 码 是 路 由 的 组 成 部 分 ， 用 来 表示 一 条 路 由 。 而 反 掩 码 可 
以 由 不 连续 的 1 组 成 ， 例 如 0.0.6.0， 一 般 用 来 匹配 一 个 或 者 一 组 地 址 。 通 配 符 中 用 二 进 
制 0 精确 地 匹配 对 应 的 地 址 位 ， 用 1 来 模糊 地 匹配 对 应 的 地 址 位 。 

配置 示例 : 

例 1: 使 用 基本 ACL 将 一 个 地 址 10.1.1.1 匹配 出 来 。 


[HUAWElel 2000 
[HUAWEI]rule 10 permit source 10.1.1.10 
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该 例 中 使 用 到 的 通配符 为 0 (实际 应 该 为 0.0.0.0， 可 以 简写 成 0) 。 换 算 成 二 进 制 全 为 
0， 也 就 是 精确 地 对 应 了 IP 地 址 中 4 个 Byte， 因 此 仅仅 匹配 出 地 址 10.1.1.1， 其 他 的 地 址 
不 能 被 匹配 。 


例 2: 使 用 基本 ACL 将 源 地 址 段 192.168.1.0/24 中 的 C 类 网 络 当中 所 有 主机 地 址 匹 
配 出 来 。 

[HUAWEI]jacl 2001 和 ， 

[HUAWEI] rle 10 permit source 192.168.1.0 0.0.0.255 | 

说 明 : 

本 例 中 使 用 通配符 为 0.0.0.255， 在 第 四 个 字 节 为 255， 换 算 成 二 进 制 为 11111111。 对 
应 上 面 的 址 位 中 第 4 个 Byte 中 每 一 位 都 可 以 模糊 匹配 ， 任 何 地 址 都 能 够 匹配 到 (也 就 是 
能 够 匹配 0~ 255 的 所 有 地 址 ) ， 此 本 例 可 以 匹配 的 地 址 段 为 : 192.168.1.0 ~ 
192.168.1.255。 


2. ACL 中 通配符 使 用 技巧 
示例 1: 匹配 出 192.168.1.0 一 192.168.1.255 中 所 有 的 奇数 地 址 ， 且 只 能 使 用 一 条 ACL， 
如 何 来 表示 ? 


说 明 : 

在 这 些 路 由 条 目 中 可 以 查找 一 下 其 中 的 规律 ， 这 个 地 址 段 中 所 有 奇数 地 址 ， 比 如 
192.168.1.1、192.168.1.3、192.168.1.5.………- 192.168.1.255， 这 些 地 址 中 有 一 个 规律 就 是 最 后 
一 个 Byte 最 后 一 位 为 都 为 1。 


如 192.168.1.1 最 后 一 个 字 节 换算 成 二 进 制 00000001 
192.168.1.3 最 后 一 个 字 节 换算 成 二 进 制 00000011 
192.168.1.5 最 后 一 个 字 节 换算 成 二 进 制 00000101 


192.168.1.255 最 后 一 个 字 节 换算 成 二 进 制 11111111 

找到 规律 以 后 ， 使 用 0 或 者 1 来 对 应 该 地 址 位 ， 由 于 在 该 地 址 段 中 只 有 最 后 一 位 都 
相同 ， 那 么 反 掩 码 中 该 位 使 用 0 来 表示 (精确 匹配 )。 地 址 段 中 前 面 七 位 都 不 相同 ， 那 么 
反 掩 码 使 用 1 来 表示 (模糊 匹配 )， 因 此 二 进 制 数 为 11111110， 最 终 换算 成 十 进 制 数 为 
254。 由 于 地 址 的 前 面 3 个 Byte 都 相同 , 反 掩 码 中 都 用 0 来 对 应 。 最 终 可 以 使 用 192.168.1.1 
0.0.0.254 来 表示 该 地 址 段 中 所 有 的 奇数 地 址 。 

示例 2: 车 匹配 172.16.0.0/24、172.16.1.0/24、172.16.2.0/24 、172.16.3.0/24……. 
172.16.7.0/24 当中 所 有 偶数 路 由 ， 该 如 何 使 用 一 条 ACL 来 描述 ? 


说 明 : 

前 面 提 到 匹配 奇数 实际 上 是 有 规律 可 循 的 ， 奇 数 地 址 最 后 一 位 都 为 1， 而 偶数 地 址 也 
是 有 规律 的 ， 最 后 一 位 为 0。 在 这 个 例子 中 是 第 3 个 Byte 不 同 、 其 他 字 节 相同 的 用 0 来 对 
应 上 面 的 地 址 位 ， 最 终 得 出 的 结果 应 该 是 172.16.0.0 0.0.6.0 来 描述 该 偶数 地 址 。 
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狂 永 : 
可 能 有 读者 会 问 为 什么 掩 码 不 是 0.0.254.255， 由 于 此 处 给 出 的 是 8 条 路 由 ， 后 面 一 个 
字 节 都 是 0， 所 以 反 掩 码 最 后 一 个 字 节 肯定 用 最 精确 的 0 来 对 应 , 而 第 3 个 Byte 只 有 前 面 
七 个 地 址 , 那么 所 有 偶数 地 址 换算 成 二 进 制 应 该 为 00000010 (2)、00000100 (4)、00000110 
(6)， 只 有 这 三 个 地 址 ， 也 就 是 说 在 该 字 节 当中 前 面 五 位 都 是 相同 的 ， 应 该 用 0 来 对 应 。 
因此 最 终 的 结果 就 是 00000110， 换 算 成 十 进 制 就 是 6， 所 以 反 掩 码 应 该 为 0.0.6.0。 


示例 3: 若 使 用 一 条 ACL 来 匹配 出 10.1.1.0/24、10.1.3.0/24、10.1.5.0/24、10.1.7.0/24、 
10.1.17.0/24、10.1.19.0/24、10.1.21.0/24、10.1.23.0/24， 如 何 来 实现 ? 


说 明 : 

本 例 中 这 8 条 路 由 第 三 个 字 节 不 同 ， 同 样 寻找 出 其 中 的 规律 ， 将 第 三 个 字 节 换算 成 二 
进 制 分 别 为 : 00000001、00000011、00000101、00000111、00010001、00010011、00010101、 
00010111， 其 中 只 有 第 4/6/7 位 不 同 ，IP 前 组 既 有 0 又 有 1， 那 么 反 掩 码 将 其 置 1 (任意 
匹配 )， 其 他 位 置 0 (精确 匹配 )。 反 掩 码 为 00010110 ee 22)， 因 此 最 终 的 结果 应 
该 是 10.1.1.0 0.0.22.0 来 匹配 出 这 些 网 段 。 


5.1.1.10 1IPv6 ACL 
基于 IPv6 的 ACL 也 称 为 ACL6， 分 类 见 表 5-1 所 示 。 


表 5-1 IPY6 ACL 的 分 类 













人 
范围 为 
2000 一 2999 


可 使 用 报 文 的 源 卫 地 址 、VPN 实例 、 分 片 标 记 和 时 间 段 信息 来 定义 规则 
范围 为 可 以 使 用 数据 包 的 源 地 址 、 目 的 地 址 、IP 承载 的 协议 类 型 、 针 对 协议 的 特 
3000~3999 
虽然 ACL6 与 ACL 命令 编号 相同 ， 但 是 不 会 互相 影响 。 


性 (例如 TCP 的 源 端口 、 目 的 端口 、ICMPv6 协议 的 类 型 、ICMPv6 Code) 
配置 命令 : 


等 内 容 定义 规则 
acl ipv6 [ number ] aci6-number [ match-order { auto | config } ] 






说 明 : 
ACL6 的 配置 与 ACL 相似 ，match-order 用 于 指定 ACL6 规则 的 配置 顺序 。auto: 匹 配 时 自 
动 排序 ，config 匹配 规则 时 按照 用 户 的 配置 顺序 。 


配置 示例 1: 使 用 基本 ACL6 全 鸭 2001:: /64 的 所 有 地 址 。 


[huawei] acl ipv6 2000 
[huawei-acl6-basic-2000] rule 10 permit source 2001::/64 


说 明 : 
ACL6 没有 反 掩 码 ， 直 接 定 义 前 组 长 度 即 可 。 
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配置 示例 2: 使 用 高 级 ACL6 允许 源 为 2001:: /64、 目 标 为 3000: 1/128 的 HTTP 
流量 ， 其 他 流量 过 滤 ， 并 在 入 接口 调用 。 
[huawei] acl ipv6 2000 
[huawei-acl6-basic-2000]rule 10 permit tcp source 2001::/64 destination 3000::1/128 destination-port eq 80 
[huawei-acl6-basic-2000] rule 20 deny ipv6 source any destination any 
[huawei-acl6-basic-2000] quit 
[huawei] interface GigabitEthernet 0/0/0 
[huawei -GigabitEthernet0/0/0] traffic-filter inbound ipv6 acl 3000 
说 明 : 
ACL6 配置 以 后 ， 也 需要 在 接口 调用 才能 生效 ， 且 于 ACL 相同 ， 最 后 都 有 一 条 隐 含 允 
许 所 有 ， 如 没有 拒绝 的 流量 都 将 被 放行 。 


5.1.1.11 ACL 的 不 足 

ACL 不 仅仅 可 以 应 用 在 数据 层面 过 滤 数 据 包 ， 也 能 够 应 用 在 路 由 控制 层面 ， 用 于 匹 
配 路 由 ， 但 是 如 果 路 由 表 中 有 类 似 192.168.1.0/24、192.168.1.0/25、192.168.1.0/26 路 由 ， 
如 何 使 用 ACL 将 其 中 一 条 路 由 比如 192.168.1.0/25 匹配 出 来 ? 如 果 使 用 192.168.1.0 
0.0.0.255 将 只 能 匹配 出 该 网 段 所 有 的 地 址 ， 由 于 不 能 够 反映 出 网 络 掩 码 ， 那 么 将 会 造成 
另外 两 条 路 由 也 会 被 匹配 到 ， 这 样 将 不 能 精确 地 对 路 由 进行 控制 。 


5.1.2 ”前 绎 列表 ip—prefix 


5.1.2.1 ip=-prefix 使 用 原理 
前 缀 列表 与 ACL 有 点 类 似 ， 两 者 都 可 以 实现 控制 层 对 路 由 的 匹配 但 前 级 列表 不 

同 于 ACL， 不 具备 过 滤 数 据 流 的 功能 ， 而 ACL 具备 过 滤 数 据 流 及 过 滤 路 由 的 功能 。 前 
缀 列表 的 特点 是 能 够 更 精确 地 匹配 到 路 由 ， 可 以 将 一 条 路 由 区 分 为 网 络 前 缀 部 分 和 掩 码 
长 度 〈 子 网 掩 码 ) 部 分 ， 能 分 别 进行 匹配 ， 这 点 是 ACL 无 法 做 到 的 。 

配置 命令 : 基于 IPv4 的 ip-prefix 

ip ip-prefix ip-prefix-name [ index index-number | { permit | deny } ip-address mask-length [ greater-equal greater-equal- 
vailue] [ less-equal less-equal-value ] 

说 明 : 

ip-prefix-name 为 名 称 或 者 数字 ，index-number 为 编号 ，ip-address 为 路 由 前 级 (网 段 )， 
mask-length 为 指定 前 组 所 匹配 的 位 数 和 掩 码 长 度 ，greater-equal-value 与 less-equal-value 分 别 
为 大 于 等 于 和 小 于 等 于 ， 代 表 子 网 掩 码 的 位 数 ， 使 用 后 面 两 个 参数 来 确定 子 网 掩 码 的 范 
围 (可 以 不 配 )。 


在 上 一 节 介 绍 到 ACL 的 时 候 ， 大 家 可 能 注意 到 一 个 例子 ， 如 果 将 192.168.1.0/24、 
192.168.1.0/25、192.168.1.0/26 三 条 路 由 中 其 中 一 条 匹配 出 来 是 无 法 实现 的 ， 但 是 使 用 前 
缀 列表 来 匹配 就 可 以 轻松 地 实现 。 前缀 列表 中 greater-equal-value 与 less-equal-value 就 用 
于 精确 地 匹配 出 掩 码 地 长 度 。 那 么 这 里 大 家 可 能 会 有 疑问 ，mask-length 也 都 能 够 代表 掩 
码 的 长 度 ， 这 两 者 之 间 又 有 哪些 区 别 呢 ? 后 面 两 个 参数 greater-equal-value 与 
less-equal-value 为 可 选 参数 ， 如 果 不 携 带 此 参数 ， 那 么 mask-length 将 会 具备 两 种 作用 ， 
既 匹 配 路 由 前 缀 的 位 数 也 用 于 匹配 路 由 掩 码 位 数 。 
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例 1: ip ip-prefix TECH permit 172.16.1.0 24 

说 明 : 

这 条 前 组 列表 只 有 mask-length 参数 ， 值 为 24， 代 表 前 组 中 前 面 24 位 是 需要 完全 匹配 
的 ,如 路 由 前 3 个 Byte(24 位) 为 172.16.1.* 就 能 匹配 到 .没有 后 面 两 个 参数 greater-equal-value 
与 less-equal-value， 那 么 24 这 个 数字 也 能 代表 该 前 级 的 掩 码 长 度 同样 也 为 24 位 ， 也 就 是 
说 只 能 匹配 到 一 条 路 由 ， 为 172.16.1.0/24。 

例 2: ip ip-prefix TECH permit 172.16.1.0 24 greater-equal-value 25 less-equal-value 32 

说 明 : 

这 条 前 组 列表 既 有 mask-length 参数 为 24， 也 携带 了 greater-equal-value 和 less-equal-value 
参数 。 与 例 1 类 似 ， 前 组 中 前 面 24 位 是 需要 完全 匹配 的 ， 而 greater-equal-value 则 定义 了 
网 络 掩 码 必须 大 于 或 等 于 25 位 ,less-equal-value 则 定义 了 网 络 掩 码 必 须 小 于 或 等 于 32 位 ， 
也 就 是 该 网 络 掩 码 设 定 的 范围 在 25 ~ 32 位 之 间 。 注 意 ; mask-length 为 24 这 里 就 不 能 够 作 
为 网 络 掩 码 了 , 仅仅 用 来 匹配 前 级 的 位 数 。 如 172.16.1.0/25、 172.16.1.0/26…… 172.16.1.0/32 
都 能 匹配 到 ， 但 是 不 能 够 匹配 到 172.16.1.0/24， 因 为 greater-equal-value 定义 了 掩 码 位 数 必 
须 大 于 或 等 于 25 位 。 


浊 过 : 
在 配置 前 级 列表 时 需要 注意 设置 的 参数 需要 满足 条 件 length<= greater-equal-value <= 
less-equal-value， 否 则 会 提示 错误 。 


5.1.2.2 前缀 列表 的 配置 举例 

1. ip ip-prefix TECH permit 0.0.0.0 0 

匹配 默认 路 由 

说 明 : 

0.0.0.0 后 面 跟 一 个 0 代表 一 共 0 位 需要 被 匹配 ， 由 于 后 面 没有 规定 掩 码 位 数 ， 说 明 掩 
码 也 为 0， 因此 只 有 默认 路 由 才 满 足 该 条 件 。 


2. ip ip-prefix TECH permit 0.0.0.0 0 less-equal 32 
匹配 全 部 IP 地 址 


说 明 : 
前 面 的 前 级 部 分 一 共有 0 位 需要 被 匹配 ， 但 是 后 面 有 个 参数 表示 掩 码 小 于 或 者 等 于 
32 位 ， 则 代表 所 有 IP 地 址 都 能 够 匹配 到 ， 相 当 于 ACL 中 的 any。 


3. ip ip-prefix TECH permit 0.0.0.0 0 greater-equal 32 
匹配 出 所 有 的 32 位 主机 地 址 


说 明 : 
与 第 二 个 案例 类 似 ， 前 级 部 分 一 共有 0 位 需要 被 匹配 ,但 是 后 面 的 参数 表示 掩 码 大 于 
或 者 等 于 32 位 ， 而 这 个 代表 的 是 所 有 掩 码 为 32 位 的 主机 地 址 。 
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4. ip ip-prefix TECH permit 0.0.0.0 0 greater-equal 1 
匹配 除了 默认 路 由 以 外 的 所 有 地 址 
说 明 : 
前 缓 部 分 一 共有 0 位 需要 被 匹配 ， 后 面 的 参数 表示 掩 码 大 于 等 于 1， 而 除 只 有 默认 路 
由 的 掩 码 等 于 0 以 外 ， 其 他 的 地 址 都 满足 该 条 件 ， 因 此 这 个 用 来 匹配 除 默认 路 由 以 外 的 
其 他 所 有 地 址 。 


5. ip ip-prefix TECH permit 0.0.0.0 1 greater-equal 8 less-equal 8 

匹配 所 有 A 类 主 网 地 址 

说 明 : 

前 组 部 分 后 面 的 “ 1” 代表 只 有 一 位 需要 被 匹配 ， 而 前 组 部 分 第 一 位 二 进 制 数 国定 为 
0， 说 明 IP 地 址 从 0 开始 ， 最 大 的 地 址 为 127， 代 表 所 有 A 类 地 址 (地 址 范围 : 0 ~ 127) ， 
而 后 面 跟 着 参数 规定 掩 码 大 于 或 等 于 8， 小 于 或 等 于 8， 说 明 掩 码 固定 为 8 位， 因此 这 个 
代表 的 是 所 有 A 类 的 主 类 网 络 地 址 。 


6. ipip-prefix TECH permit 128.0.0.0 2 greater-equal 16 less-equal 16 
匹配 所 有 B 类 主 网 地 址 


说 明 : 

前 组 部 分 用 2 来 代表 只 有 前 面 2 位 需要 被 匹配 ， 而 128 前 两 位 二 进 制 数 固定 为 10， 
说 明 IP 地 址 从 128 开始 ， 最 大 地 址 为 191， 代 表 所 有 B 类 地 址 (地 址 范围 : 128 ~ 191)， 
后 面 跟着 参数 规定 掩 码 固定 为 16， 因 此 这 个 代表 所 有 B 类 的 主 类 网 络 地 址 。 


7. ip ip-prefix TECH permit 192.0.0.0 3 greater-equal 24 

匹配 所 有 C 类 主 网 地 址 和 子 网 地 址 

说 明 : 

前 级 部 分 用 3 来 表示 有 3 位 需要 被 匹配 ， 而 192 前 三 位 为 110， 说 明 IP 地 址 是 从 192 
开始 ， 最 大 地 址 为 224， 代 表 所 有 C 类 地 址 (范围 : 192 ~ 224)， 后 面 跟着 参数 规定 掩 码 
大 于 或 等 于 24， 因 此 这 个 代表 所 有 C 类 的 所 有 主 网 地 址 及 子 网 地 址 。 

总 治 : 

如 何 使 用 前 级 列表 写 出 AJB/C 类 私有 地 址 ? 

5.1.2.3 IPv6—Prefix 

IPv6 地 址 前 缀 列表 用 于 过 滤 IPv6 地 址 。 同 一 个 地 址 前 缀 列表 可 包含 多 个 表 项 ， 每 
个 表 项 指定 一 个 地 址 前 缀 范围 。 此 时 ， 各 表 项 之 间 是 “或 ”的 关系 ， 即 只 要 通过 其 中 一 
个 表 项 就 认为 已 通过 该 地 址 前 缀 列表 的 过 滤 ， 所 有 表 项 都 没有 通过 则 意味 着 没有 通过 该 
地 址 前 缀 列表 的 过 滤 。 

配置 命令 : 基于 IPv6 的 ipv6-prefix。 


ip ipv6-prefix ipv6-prefix-name [ index index-number | { deny | permit } ipv6-address prefix-length [ greater-equal greater- 
equal-value ] [ less-equal less-equal-value ] ) 
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配置 类 似 于 ip-prefix， 而 ipv6-prefix 匹配 的 是 IPv6 地 址 。 


配置 示例 1: 允许 所 有 长 度 在 48 位 和 128 位 的 地 址 通过 

[huawei] ip ipv6-prefix abc permit :: 0 greater-equal 48 less-equal 128 

说 明 : 

语句 中 :: 0 类 似 于 IPv4 中 的 0.0.0.0 0, 代表 没有 一 位 需要 匹配 ,greater-equal 48 less-equal 
128 来 定义 网 段 的 前 级 长 度 位 64~ 128 之 间 的 所 有 地 址 。 


配置 示例 2: 拒绝 2000:100:100:1: :/64-2000:100:100:3: :/64 的 所 有 路 由 , 其 他 所 有 地 
址 允许 。 

[huawei] ip ipv6-prefix abc deny 2000:100:100:: 62 greater-equal 64 less-equal 64 

[huawei] ip ipv6-prefix abc permit :: 0 less-equal 128 

说 明 : 

由 于 2000:100:100:1: :/64-2000:100:100:3: :/64 的 前 62 位 是 完全 相同 的 ， 因 此 在 第 一 条 语 
名 中 使 用 2000:100:100:: 62 来 进行 匹配 ，greater-equal 64 less-equal 64 用 来 定义 前 组 长 度 必须 是 
64 位 的 路 由 。 而 第 二 条 语句 代表 所 有 路 由 ， 类 似 于 any。ipv6-prefix 默认 所 有 未 匹配 的 路 由 将 
被 拒绝 通过 过 滤 列 表 ， 因 此 在 配置 时 ， 如 需 放 行 其 他 流量 ， 需 要 配置 允许 所 有 流量 。 


5.2 路 由 策略 与 策略 路 由 


5.2.1 路 由 策略 与 策略 路 由 介绍 


路 由 策略 可 以 在 路 由 协议 发 布 、 接 收 和 引入 路 由 时 配置 使 用 ， 也 可 用 于 过 滤 路 由 和 
改变 路 由 属性 。 路 由 策略 的 工具 主要 包括 filter-policy 和 route-policy， 更 多 在 控制 平面 对 
路 由 进行 控制 。 

策略 路 由 PBR 〈Policy-Based Routing) 是 一 种 依据 制定 的 策略 而 进行 路 由 选择 的 机 制 ， 
可 应 用 于 安全 、 负 载 分 担 等 目的 ， 它 改变 数据 包 的 路 由 查找 方式 ， 影 响 数据 平面 的 转发 。 

路 由 策略 与 策略 路 由 的 区 别 见 表 5-2 所 示 。 





表 5-2 路 由 策略 与 策略 路 由 的 对 比 
A 
作用 对 象 是 路 由 信息 作用 对 象 是 数据 流 
转发 数据 包 时 只 看 路 由 表 转 发 基于 策略 的 转发 ， 失 败 后 再 查找 路 由 表 转 发 
基于 控制 平面 ， 为 路 由 协议 和 路 由 表 服 务 基于 转发 平面 ， 为 转发 策略 服务 
与 路 由 协议 结合 完成 策略 需要 手工 逐 跳 配置 ， 以 保证 报 文 按 策略 转发 


5.2.2 路 由 策略 工具 1: filter-policy 
filter-policy: 过 滤 策 略 ， 该 工具 主要 应 用 在 路 由 协议 的 进程 中 ， 可 以 调用 ACL、 
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ip-prefix、route-policy 等 工具 来 匹配 路 由 ， 用 于 控制 对 路 由 的 发 布 或 接收 ， 只 有 通过 该 
策略 的 路 由 才 可 以 被 发 布 或 者 接收 , 未 通过 策略 的 路 由 则 被 过 滤 掉 。 应 用 场景 比较 广泛 ， 
在 IGP 和 BGP 协议 中 都 能 够 使 用 , filter-policy 分 为 import( 入 方向 ) 和 export (出 方向 )。 

import: 主要 影响 路 由 器 接收 路 由 ， 影 响 自身 路 由 表 的 变化 ， 适 合 于 任何 路 由 协议 ， 但 

是 不 同类 型 的 路 由 协议 也 是 有 差别 的 , 如 距离 矢量 协议 (如 RIP ) 与 链 路 状态 协议 (如 OSPF、 
IS-IS) 利用 该 工具 实现 路 由 的 控制 时 ， 实 现 的 效果 也 不 太一 样 。 由 于 距离 矢量 协议 基于 自 
身 路 由 表 来 通告 ， 传 递 的 是 路 由 表 信 息 ， 通 过 filter-policy import 可 以 过 滤 路 由 的 接收 。 而 
链 路 状态 协议 基于 链 路 状态 数据 库 的 信息 来 通告 ， 传 递 的 是 LSA， 并 不 是 路 由 信息 。 而 
filter-policy import 不 能 过 滤 1/2 类 LSA, 而 是 阻止 路 由 表 的 生成 , 该 部 分 将 在 后 续 加 以 分 析 。 

export: 在 距离 矢量 协议 中 用 于 向 邻居 发 布 路 由 时 的 控制 ， 影 响 邻 居 路 由 器 的 路 由 表 变 

化 。 在 链 路 状态 协议 中 往往 用 于 自治 系统 边界 路 由 器 上 ， 主 要 用 来 控制 外 部 路 由 的 引入 。 
通常 情况 下 ， 路 由 过 滤 只 能 过 滤 路 由 信息 ， 不 能 过 滤 链 路 状态 信息 。 

。 ”对 于 OSPF， 可 以 在 出 方向 和 入 方向 上 过 滤 LSA3、LSA 5、LSA7。 

。 ”对 于 链 路 状态 路 由 协议 ， 如 OSPF 和 IS-IS， 在 入 方向 过 滤 路 由 实际 上 并 不 能 阻 
断 链 路 状态 信息 的 传递 ， 过 滤 的 效果 仅仅 是 过 滤 的 路 由 不 能 被 加 到 本 地 路 由 表 
中 ， 但 是 代表 该 路 由 的 LSA 仍然 会 在 OSPF 域 或 者 IS-IS 域内 传递 。 

。 路 由 过 滤 还 可 以 针对 从 其 他 协议 引入 的 路 由 进行 过 滤 ， 比 如 把 RIP 路 由 引入 到 
OSPF，OSPF 可 以 使 用 路 由 过 滤 把 某 些 从 RIP 引 六 的 路 由 过 滤 掉 ， 只 将 满足 条 
件 的 外 部 路 由 转换 为 Type-5 LSA (AS-external-LSA) 并 发 布 出 去 ， 进 而 使 其 他 
OSPF 路 由 器 只 有 特定 的 从 RIP 引入 的 路 由 ， 这 种 配置 只 能 用 在 出 方向 上 。 

5.2.2.1 案例 研究 : filter-policy import (RIP) 

由 于 RIP 属于 距离 矢量 路 由 协议 ， 发 布 的 是 路 由 信息 ， 而 将 filter-policy 用 在 import 

方向 可 以 控制 路 由 的 接收 。 

配置 命令 : 

filter-policy { acl-number | acl-name acl-name | ip-prefix ip-prefix-name [ gateway ip-prefix-name ] } import [ interface-ty 

pe interface-number ] 

说 明 : 

filter-policy 后 面 可 以 调用 ACL、ip-prefix、gateway 来 过 滤 指 定 的 路 由 ，ACL 和 ip-prefix 都 
用 来 匹配 出 路 由 条 目 ， 而 gateway 基于 网 关 发 布 的 路 由 进行 控制 ， 如 某 条 路 由 的 下 一 跳 网 
关 地 址 为 192.168.1.1， 可 以 通过 匹配 gateway 网 关 地 址 来 控制 其 所 发 布 的 所 有 路 由 。import 
指定 为 入 方向 ，interface-type 用 来 指定 接口 类 型 和 接口 号 ， 基 于 接口 来 过 滤 路 由 。 


场景 描述 :如 图 5-4 所 示 ，R1 有 5 个 网 段 通告 进 RIP 协议 ， 要 求 R2 过 滤 掉 其 中 奇 
数 路 由 。 









172.16.1.0/24 
172.16.2.0/24 
172.16.3.0/24 
172.16.4.0/24 
172.16.5.0/24 


图 5-4 ”案例 研究 filter-policy import (RIP) 
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(1) 利用 ACL 使 用 最 少 命令 来 过 滤 路 由 。 


[R2]aclnumber 2000 
[R2-acl-basic-2000]rule deny source 172.16.1.0 0.0.6.0 
[R2-acl-basic-2000]rule permit source any 


说 明 : 
ACL 用 于 控制 层面 的 过 滤 路 由 时 ， 最 后 都 会 有 一 条 隐 含 拒绝 所 有 ， 因 此 需要 匹配 其 他 
的 流量 ， 将 其 允许 。 


(2) 进入 到 进程 中 应 用 filter-policy， 且 在 import 方向 调用 ACL。 
[R2]jrip 1 
[R2-rip-1]filter-policy 2000 import 
[R2]display ip routing-table 

Route Flags: R-relay, D-download to fib 


”Routing Tables: Public 


Destinations : 17 Routes : 17 

Destination/Mask Proto Pre Cost Flags NextHop Interface 
172.16.2.0/24 RIP 100 1 Dee ba GigabitEthemet0/0/0 
172.16.4.0/24 RIP 100 1 Dr "io Ty GigabitEthernet0/0/0 


只 显示 部 分 信息 ， 其 他 路 由 省 略 …… 

使 用 filter-policy 工具 在 import 方向 应 用 时 , R2 的 路 由 表 中 无 法 看 到 被 过 滤 的 路 由 ， 
由 于 R3 的 路 由 是 R2 传递 过 来 的 ，R3 的 路 由 表 信息 应 该 与 R2 是 一 致 的 , 也 不 会 看 到 被 
过 滤 的 路 由 。 如 果 在 后 面 携带 接口 参数 ， 将 只 会 过 滤 从 该 接口 来 的 路 由 ， 没 有 携带 接口 
参数 将 会 过 滤 所 有 接口 来 的 路 由 。 

查看 R3 的 路 由 表 : 


<R3>display ip routing-table 
Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations ; 15 Routes : 15 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
172.16.2.0/24 RIP” 100 2 D2311:2 GigabitEthernet0/0/0 
172.16.4.0/24 RIP 100 2 Bor23,112 GigabitEthernet0/0/0 


只 显示 部 分 信息 ， 其 他 路 由 省 略 …… 

使 用 filter-policy 工具 在 export 方向 应 用 时 ， 目 的 是 向 邻居 发 布 路 由 时 进行 过 滤 ， 但 
是 不 会 影响 本 地 路 由 表 的 变化 。 

5.2.2.2 ”案例 研究 : filter-policy import (OSPF) 

场景 描述 :如 图 5-5 所 示 , 路 由 协议 运行 OSPF, 在 R2 上 使 用 filter-policy 调用 在 import 
方向 ， 观 察 一 下 路 由 表 的 有 何 区 别 。 
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图 5-5 案例 研究 filter-policy import (OSPF) 
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在 R2 上 使 用 ACL 过 滤 172.16.X.0 中 的 奇数 路 由 。 


[R2]acl number 2000 

[R2-acl-basic-2000]rule 10 deny source 172.16.1.0 0.0.6.0 
[R2-acl-basic-2000]rule 20 permit source any 
[R2-acl-basic-2000]quit 

[R2] ospf 1 

[R2-ospf-1]filter-policy 2000 import 

[R21]display ip routing-table 

Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 17 Routes : 17 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
1.1.1.0/24 OSPF ，10 | GigabitEthermet0/0/0 
2.2.2.0/24 Direct 0 0 JJ 人 2 之 LoopBack0 
2.2.2.2/32 Direct 0 0 D 127.0.0.1 LoopBack0 
2.2.2.255/32 Direct 0 0 下 了 700:1 LoopBack0 
3.3.3.0/24 OSPF 10 1 DA GigabitEthernet0/0/1 
12.1.1,0/24 Direct 0 0 DD; - 12112 GigabitEthernetQ/0/0 
12.1.1.2/32 Direct 0 0 D -127.0.0.1 GigabitEthernet0/0/0 
Tl L255/32 7 Ditedt 0 0 Dh 00 GigabitEthernet0/0/0 
23.1.1.0/24 Direct 0 0 BD 23W12 GigabitEthernet0/0/1 
23.1.1.2/32 Direct 0 0 D 127.0.0.1 GigabitEthernet0/0/1 
23.1.1.255/32 Direct 0 0 D127.0.0 GigabitEthernet0/0/1 
127.0.0.0/8 ” Direct 0 0 D” "127.0.0.1 InLoopBack0 
127.0.0.1/32 Direct 0 0 DD 127.0.04 InLoopBack0 
127.255.255.255/32 Direct 0 0 D 127.0.0.1 InLoopBack0 
172,16.2.0024 “OSPF ‘10% 1 Dan ilo hl GigabitEthernet0/0/0 
172.16.4.0/24 OSPF 10 1 Dui:l GigabitEthernet0/0/0 
255.255.255,255/32 Direct 0 0 D 127.0.0.1 InLoopBack0 


在 R2 的 路 由 表 中 只 有 172.16.2.0/24、172.16.4.0/24 两 条 偶数 路 由 进入 到 路 由 表 中 ， 
奇数 路 由 已 经 被 过 滤 了 ， 已 经 实现 目的 了 。 

再 观察 一 下 R3 的 路 由 表 。 

<R3>display ip routing-table 

Route Flags: R-relay, D-download to fib 


0 


Routing Tables: Public 


Destinations : 18 Ronutes ; 18 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
1.1.1.0/24 OSPF 10。 2 De 232 GigabitEthernet0/0/0 
2.2.2.0/24 OSPF On Lp. 232 2 GigabitEthernet0/0/0 
3.3.3.0/24 Direct 0 0 Dn 33335 LoopBack0 
.3.3332 Direct “0 0 D 127.0.0.1 LoopBack0 
3.3.3.255/32 “Direct 0 0 D 127.0.0.1 LoopBack0 
tl.024 二 IOSPR 才 二 之 De 23: jl GigabitEthernet0/0/0 
23.1.1.0/24 Direct 0 0 和 GigabitEthernet0/0/0 
23.1.1.3/32 Direct 0 0 D 127.0.0.1 GigabitEthemet0/0/0 
Zl255/32 Direct < 0 0 D 127.0.0.1 GigabitEthernet0/0/0 
127.0.0.0/8 Direct 0 0 D— 127:0:0,1 InLoopBack0 
127.0.0.1/32 Direct 0 0 D 127.0:0.I InLoopBack0 
127.255.255.255/32 ”Direct 0 0 D 127.0.0,l InLoopBack0 
172.16.1:0/24 OSPF 10 .2 a GigabitEthernet0/0/0 
172.16.2.0/24 OSPF 10 2 I SE GigabitEthernet0/0/0 
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Ra3 的 路 由 表 是 正常 的 ， 奇 数 路 由 
Ra 通 人 的 LSAL 
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在 R2 的 LSDB 中 ，R1 通告 的 LSA1 出 现在 LSDB， 并 没有 被 过 

分 析 原 因 : 

如 图 5-6 所 示 , 在 一 个 区 域 中 的 OSPF 路 由 器 ,通过 泛 洪 机 制 在 路 由 器 间 同 步 LSDB， 
三 台 路 由 器 在 同一 区 域 中 有 一 样 的 LSDB， 由 于 路 由 器 间 交 互 的 是 LSA， 并 非 路 由 ， 所 


a 


a 
o 
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图 5-6 ”OSPF 工作 流程 图 


每 台 路 由 器 执行 SPF 计算 ， 并 把 计算 出 来 的 最 优 路 由 放 进 路 由 表 。 在 R2 上 使 用 
filter-policy import 对 进入 路 由 表 的 路 由 进行 过 滤 。 在 R3 上 ， 未 对 进入 路 由 表 的 路 由 进 
行 过 滤 ， 所 以 在 R2 路 由 表 中 看 不 到 的 路 由 在 R3 上 依然 可 以 看 到 。 

filter-policy import 用 在 OSPF 中 是 对 进入 路 由 表 的 路 由 进行 过 滤 。 

5.2.2.3 ”案例 研究 : filter-policy export (OSPF) 

OSPF 中 使 用 filter-policy import 可 以 用 来 过 滤 路 由 ， 但 是 不 能 过 滤 LSA， 而 
filter-policy export 则 是 用 于 控制 外 部 路 由 的 引入 。 如 图 5-7 所 示 ， 要 求 R2 将 RIP 引入 进 
OSPF 时 仅 引 入 前 面 三 条 路 由 。 
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图 5-7 案例 研究 filter-policy export (OSPF) 


在 R2 上 使 用 filter-policy export 把 图 5-8 中 172.16.1.0 一 172.16.3.0 路 由 引入 OSPF。 

[R2]ip ip-prefix R2O permit 172.16.0.0 22 greater-equal 24 less-equal 24 

[R2]Jospf 1 

[R2-0spf-1] import-route rip 1 

[R2-ospf-1] filter-policy ip-prefix R20O export rip 1 

R2 使 用 前 级 列表 匹配 来 自 RIP 的 172.16.1.0/24、172.16.2.0/24、172.16.3.0/24 三 个 
网 段 , 将 匹配 到 路 由 引入 进 OSPF。 使 用 filter-policy 工具 调用 前 缀 列表 并 且 应 用 在 export 
方向 ， 后 面 携带 了 参数 表示 从 RIP 协议 引入 的 路 由 ， 没 有 被 匹配 到 的 路 由 将 不 会 被 引入 
进来 。 

查看 R3 的 路 由 表 : 


[R3jdisplay ip routing-table 
Route Flags: R-relay, D-download to fib 
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Routing Tables: Public 


Destinations : 13 Routes : 13 
Destination/Mask ~ Proto Pre Cost Flags NextHop Interface 
3.3.3.0/24 Direct 0 0 DD 3.333 LoopBack0 
B32 Dieet 0 0 D712700.1 LoopBack0 
3.3.3.25532 Dirett 0 0 D "12700.1 LoopBack0 
23.1.1.0/24 Direct 0 0 DD 2313 GigabitEthernet0/0/0 
23.1.1,3/32 Direet 0 0 D 127.0.0.1 "GigabitEthemet0/0/0 
23,1.1.255(32 | Direct 0 0 D. 12700.1 GigabitEthernet0/0/0 
127.0.0.0/8 Direct 0 0 DD 127.00.1 InLoopBack0 
127.0.0.1/32 Direct 0 0 有 127.0.0.1 ”JInLoopBack0 
107 255.255255/32 Diect 1 0 有 “127.0.04 InLoopBack0 
172.16.1.0/24 O ASE 150 1 了 23.1.1.2 GigabitEthernet0/0/0 
172.16.2.0/24 O ASE 150 1 有 23. GigabitEthernet0/0/0 
172.16.3.0/24 O_ASE 150 1 D 231.12 GigabitEthernet0/0/0 
255.255.255.255/32 Direet 0 0 D 127.0.0.1 InLoopBack0 


R3 的 路 由 表 中 只 能 看 到 被 匹配 到 的 路 由 ，172.16.4.0/24、172.16.5.0/24 没有 被 引入 
进来 ， 通 过 该 方式 可 以 精确 地 控制 路 由 的 引入 。 

总 结 : filter-policy 工具 是 一 种 非常 灵活 的 路 由 控制 工具 ， 主 要 用 在 矢量 路 由 协议 中 
邻居 间 通 告 的 路 由 执行 过 滤 控 制 ， 或 在 链 路 状态 路 由 协议 中 ， 在 区 域 或 路 由 域 的 边界 
设备 上 对 路 由 表 中 的 路 由 进行 过 滤 ( 链 路 状态 路 由 协议 的 矢量 特性 )。 但 它 无 法 在 链 路 状 
态 路 由 协议 中 对 路 由 器 间 泛 洪 的 LSA 或 LSP 中 的 网 段 信息 进行 过 滤 。 


5.2.3 路 由 策略 工具 2: route 一 policy 


route-policy 是 一 种 比较 复杂 的 过 滤器 ,用 于 过 滤 路 由 信息 以 及 为 通过 过 滤 的 路 
由 信息 设置 路 由 属性 ,一 个 route-policy 由 多 个 节点 构成 ,一 个 节点 包括 多 个 if-match 
和 apply 子 句 ，if-match 子 句 用 来 定义 该 节点 的 匹配 条 件 ，apply 子 句 用 来 定义 通过 
过 滤 的 路 由 行为 。 如 果 fmatch 子 句 的 过 滤 规 则 关系 是 “与 ?， 即 该 节点 的 所 有 
if-match 子 句 都 必须 匹配 ， 如 果 if-match 子 句 的 过 滤 关 系 是 “或 ” 即 只 要 通过 了 一 
个 节点 的 过 滤 ， 就 可 通过 该 route-policy。 如 果 没 有 通过 任何 一 个 节点 的 过 滤 ， 路 由 
信息 将 无 法 通过 该 route-policy。 它 不 仅 可 以 匹配 给 定 路 由 信息 的 某 些 属性 ， 还 可 以 
在 条 件 满 足 时 改变 路 由 信息 的 属性 。route-policy 可 以 使 用 前 面 几 种 过 滤器 定义 自己 
的 匹配 规则 。 

5.2.3.1 route-policy 常用 场景 

route-policy 被 广泛 地 用 于 路 由 协议 中 ， 尤 其 是 BGP 协议 ，route-policy 常 被 用 作 修 
改 路 由 的 属性 ， 常 用 的 场景 包括 以 下 几 个 方面 。 

e 控制 路 由 的 引入 

在 对 路 由 进行 引入 的 时 候 ， 为 了 防止 次 优 路 径 或 者 环 路 ， 可 以 应 用 策略 工具 进行 控 
制 或 者 修改 路 由 的 属性 。 

e 控制 路 由 的 发 布 和 接收 

根据 业务 需求 ， 可 以 通过 策略 工具 来 控制 路 由 的 发 布 和 接收 。 

e 设置 路 由 的 属性 

可 以 通过 该 工具 来 对 网 络 进行 优化 和 调整 。 
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5.2.3.2 ”route-policy 工作 流程 图 
route-policy 工作 流程 图 如 图 5-8 所 示 。 


Route-policy 











if-match 
if-match 


图 5-8 route-policy 工作 流程 图 


route-policy 具体 工作 过 程 如 下 : 

一 个 路 由 策略 中 包含 N (N>=1) 个 节点 (Node)， 路 由 进入 路 由 策略 后 ， 按 节点 序 
号 从 小 到 大 依次 检查 各 个 节点 是 否 匹 配 ， 匹 配 条 件 由 论 match 子 句 定义 。 当 路 由 与 该 节 
点 的 所 有 论 match 子 句 都 匹配 成 功 后 ， 进 入 匹配 模式 选择 ， 匹 配 模式 分 permit 和 deny 


两 种 。 
epermit: 路 由 将 被 允许 通过 ， 并 且 执 行 该 节点 的 Apply 子 句 ， 对 路 由 信息 的 一 
些 属 性 进行 设置 。 


e deny: 路 由 将 被 拒绝 通过 。 

当 路 由 与 该 节点 的 任意 一 个 这 match 子 句 匹配 失败 后 ， 进 入 下 一 节点 ， 如 果 和 所 有 
节点 都 匹配 失败 ， 路 由 信息 将 被 拒绝 通过 。 

配置 命令 : 

route-policy route-policy-name { permit | deny } node node 

5.2.3.3 ” 素 便 研究 : 配置 route-policy 控制 路 由 的 引入 并 修改 路 由 属性 

如 图 5-9 所 示 ， 在 R2 上 ,将 RIP 引入 进 OSPF， 通 过 route-policy 修改 路 由 的 属性 ， 
并 将 所 有 奇数 路 由 的 cost 值 修改 为 100， 侦 数 路 由 打上 路 由 标记 (Tag) 200。 













172.16.1.0/24 
172.16.2.0/24 
172.16.3.0/24 
172.16.4.0/24 
172.16.5.0/24 


图 5-9 使 用 route-policy 工具 修改 路 由 属性 
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第 1 步 : 匹配 路 由 o 

[R2] acl 2000 

[R2-acl-basic-2000] rule 10 permit 172.16.1.0 0.0.6.0 

[R2-acl-basic-2000] quit 

[R2] acl 2001 

[R2-acl-basic-2000] rule 10 permit 172.16.0.0 0.0.6.0 

通过 两 条 ACL 分 别 将 奇数 路 由 和 偶数 路 由 匹配 出 来 。 

第 2 步 : 配置 策略 工具 route-policy。 

[R2]route-policy R20 permit node 10 

[R2-route-policy]if-match acl 2000 

[R2-route-policy]apply cost 100 

[R2-route-policy]quit 

[R2]route-policy R2O permit node 20 

[R2-route-policy]if-match acl 2001 

[R2-route-policy]apply tag 200 

配置 两 个 节点 , 在 节点 10 中 通过 fmatch 语句 匹配 ACL 2000， 由 于 该 ACL 匹配 的 
是 奇数 路 由 ， 被 匹配 的 路 由 使 用 apply 修改 cost 值 为 100。 没 有 被 匹配 到 的 路 由 将 向 下 
执行 策略 ， 在 节点 20 中 匹配 到 ACL 2001， 该 ACL 匹配 到 偶数 路 由 并 且 被 apply 修改 了 
Tag 为 200。 


注意 : 

由 于 后 面 已 经 没有 手工 定义 的 节点 ， 如 果 还 有 未 被 匹配 的 其 他 路 由 ， 则 隐 含 的 节点 会 
将 其 全 部 过 滤 掉 。 通 常 为 了 使 未 被 匹配 的 路 由 不 被 过 滤 掉 ， 则 可 以 增加 一 个 节点 ， 并 不 
需要 为 新 节点 配置 if-match 和 apply, 其 作用 就 是 将 前 面 节 点 没有 匹配 到 的 路 由 在 本 节点 中 
全 部 匹配 到 ， 如 果 前 面 已 经 匹配 到 的 路 由 则 不 会 被 该 节点 匹配 。 


第 3 步 : 应 用 策略 工具 route-policy。 


[R2] ospf 1 
[R2-0spf-1] import-route rip route-policy R20 


route-policy 策略 工具 配置 好 策略 以 后 需要 被 调用 才能 够 生效 ， 否 则 没有 意义 。 可 以 
与 import-route、filter-policy 等 结合 使 用 。 
查看 R3 的 路 由 表 及 LSDB: 


[R3]display ip routing-table 


i 


Routing Tables: Public | 
Destinations : 15 Routes: 15 


Destination/Mask Proto Pre Cost Flags NextHop Interface 

333024 Doect 0 0 BD 33433 LoopBack0 

33.3.332 Direct 0 0 D 127.0.0.1 LoopBack0 

二 1.3.255132 JDirect 0 0 D127,0.:0.1 LoopBack0 
23,1.1,0/24 Direct 0 0 D 23113 GigabitEthernet0/0/0 
23.1.1.3/32 Direct 0 0 DD 12700,1 GigabitEthernet0/0/0 
234122332 Diec 0 9 了 12710.0.! GigabitEthernet0/0/0 

127.000/8 Direct 0 0 D 127.0.0.1 InLoopBack0 

29060162 Direct 0 0 D，12700,4 InLoopBack0 

127.255:255.255/32 Diect 0 0 D 127.0.0.1 InLoopBack0 
172.16.1.0/24 O_ASE 150 100 D 23.1.1.2 GigabitEthernet0/0/0 
172.16.2.0/24 OASE 150 1 及， 罗汉 GigabitEthernet0/0/0 
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Advwrt 2,2.7.2 


Ls age :1583 

Len 246 
Options : EF 

Seq# : 80000002 


chksum : Oxfba8 
Netmask :255.255.255.0 
TOS0 Metric: 100 


Etype :2 
Forwarding Address : 0.0.0.0 
Tag ‘中 

Priority :Low 

Type : External 
Lsid T1010 
Ady rtr . :222.2 
Lsage :1584 

Len :36 
Options : E 

seq# : 80000002 


chksum : 0x1294 
Net mask :255.255.255.0 
TOS0 Metric: 100 


Etype :2 

Forwarding Address : 0.0.0.0 
Tag vl 

Priority :Low 


观察 到 R3 的 LSDB， 看 到 所 有 奇数 路 由 的 cost 值 修改 为 100， 所 有 偶数 路 由 的 Tag 
修改 为 200。 

5.2.3.4 route-policy 的 难点 研究 

一 个 route-policy 由 多 个 节点 组 成 , 每 个 节点 都 会 由 匹配 模式 permit 和 deny 来 构成 。 
通过 fmatch 匹配 到 路 由 将 会 被 apply 进行 应 用 策略 。if-match 后 面 可 以 通过 ACL 或 
ip-prefix 来 进行 匹配 路 由 ， 但 是 在 ACL 和 ip-prefix 中 也 有 permit 和 deny， 那么 这 个 与 
route-policy 节点 中 的 permit 和 deny 又 有 哪些 区 别 ? 

route-policy 中 的 permit 是 指 将 匹配 到 的 路 由 允许 通过 或 者 被 执行 路 由 策略 , 而 deny 
是 指 将 路 由 进行 过 滤 。 

ACL 和 ip-prefix 被 route-policy 工具 进行 调用 时 ， 这 里 的 permit 是 指 匹配 该 路 由 ， 
deny 是 指 不 匹配 该 路 由 ， 并 不 是 过 滤 路 由 。 下 面 举例 说 明 两 者 之 间 的 区 别 ， 如 图 5-10 
所 示 ， 将 RIP 引入 到 OSPF 时 通过 route-policy 来 控制 路 由 。 

1. 使 用 ACL 匹配 路 由 


[R2] acl 2000 

[R2-acl-basic-2000] rule 10 deny source 172.16.1.0 0 
[R2-acl-basic-2000] rule 20 permit source 172.16.2.0 0 
[R2-acl-basic-2000] quit 

[R2] acl 2001 

[R2-acl-basic-2001] rule 10 deny source 172.16.3.0 0 
[R2-acl-basic-2001] rule 20 permit source 172.16.4.0 0 
[R2-acl-basic-2001] quit 


这 里 通过 两 个 ACL 来 匹配 路 由 ， ACL 2000 使 用 mlel0 deriy 172.16.1.0 路 由 ;ACL 
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2001 使 用 rule 10 deny 172.16.3.0 路 由 。 如 果 ACL 被 filter-policy 调用 用 于 过 滤 路 由 ， 那 
么 这 两 条 路 由 将 被 执行 deny 的 动作 , 路 由 被 过 滤 掉 如果 在 route-policy 工具 中 被 if-match 
调用 ， 这 里 的 deny 指 的 是 不 匹配 该 路 由 ， 路 由 并 不 会 被 过 滤 。 

2. 定义 策略 

[R2]route-policy R2O deny node 10 

[R2-route-policy]if-match acl 2000 

[R2-route-policy]quit 

[R2]route-policy R2O permit node 20 

[R2-route-policyjif-match acl 2001 

[R2-route-policyJapply COST 50 

[R2-route-policy]quit 

[R2]route-policy R2O permit node 30 

这 里 使 用 了 三 个 节点 ， 分 析 如 下 。 

节点 10: route-policy 匹配 模式 为 deny，if-match 中 调用 了 ACL 2000， 该 节点 将 会 
匹配 到 172.16.2.0 这 条 路 由 , 而 172.16.1.0 在 这 个 节点 不 会 被 匹配 到 , 并 且 会 放 到 下 面 的 
节点 进行 匹配 ， 因 此 这 个 节点 所 实现 的 作用 是 将 172.16.2.0 过 滤 掉 。 

节点 20: route-policy 匹配 模式 为 permit， 认 match 中 调用 了 ACL 2001， 该 节点 匹配 
到 的 路 由 为 172.16.4.0， 而 172.16.3.0 网 段 将 同样 会 被 放 到 下 面 的 节点 来 匹配 。 该 节点 实 
现 的 作用 是 将 172.16.4.0 路 由 的 cost 值 属性 改 为 50。 

节点 30: 没有 定义 认 match 和 apply， 匹 配 模式 为 permit， 其 作用 是 将 前 面 节点 没有 
被 匹配 到 的 路 由 全 部 匹配 到 ,动作 为 允许 通过 。 因 此 在 上 面 的 节点 未 被 匹配 的 172.16.1.0、 
172.16.3.0 将 被 允许 通过 ， 且 不 修改 任何 属性 。 

if-match 匹配 的 路 由 会 根据 route-policy xxx permit node 或 deny node, 来 放行 或 过 滤 
路 由 。 

3. 路 由 引入 时 调用 route-policy 


[R2] ospf 1 

[R2-ospf-1] import-route rip 1 route-policy R2O 
<R3>display ip routing-table 

Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 17 Routes : 17 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
1.1.1.0/24 O ASE 150 1 D234 GigabitEthernet0/0/0 
22.2.0/24 O ASE 150 1 DT 23:812 GigabitEthernet0/0/0 
3.3.3.0/24 Direct 0 0 Dr 3333 LoopBack0 
333.3/32 Dec 0 M0 卫 127.0.04 LoopBack0 
3,3.3.255/32 Direct 0 0 D 127.0.0.1 LoopBack0 
1211024 ‘OASE, 150 二 1 了 Ps 过 GigabitEthernet0/0/0 
23.1.1.0/24 Direct 0~ 0 DB 23,113 GigabitEthernet0/0/0 
31, 19/32, -Direct m0 TO DI27.0.0:1 GigabitEthemet0/0/0 
23.1.1.235/32 _ Direct 0 0 D ”127.0.0.1 GigabitEthernet0/0/0 
127.0.0.0/8 Direct 0 0 D 127.0:0.1 InLoopBack0 
127.0.0.1/32 Direct 0 0 D 127.0.0.1 JInLoopBack0 
127.2552235255/32 = Direct "0. 7 20 DBD 127.00:1 InLoopBack0 
172.16.1.0/24 O ASE 150 1 及 32 GigabitEthernet0/0/0 
172.16.3.0/24 OASE 150 1 D23:11.2 GigabitEthernet0/0/0 
172.16.4.0/24 © ASE 150 50 D. 723:.12 GigabitEthernet0/0/0 


Ea 264 


| 第 五 章 路 由 控制 | 


172.16.5.0/24 O ASE 150 1 D .23.1.1.2 GigabitEthernet0/0/0 
255.255.255.255/32 Direct 0 0 D 127.0.0.1 InLoopBack0 


在 R2 上 将 RIP 引入 OSPF 时 调用 策略 , 可 以 看 到 R3 的 路 由 表 中 过 滤 了 172.16.2.0/24 
网 段 路 由 ， 而 172.16.4.0/24 路 由 被 修改 了 cost 值 ， 其 他 的 路 由 都 被 放行 。 


5.2.4 ”策略 路 由 PBR 


策略 路 由 PBR (Policy-Based Routing) 是 一 种 依据 用 户 制定 的 策略 进行 路 由 选择 的 
机 制 ， 分 为 本 地 策略 路 由 、 接 口 策略 路 由 和 智能 策略 路 由 。 传 统 的 路 由 转发 原理 是 首先 
根据 报 文 的 目的 地 址 查找 路 由 表 ， 然 后 进行 报 文 转发 。 在 这 种 机 制 下 ， 路 由 器 只 能 根据 
报 文 的 目的 地 址 为 用 户 提供 比较 单一 的 路 由 方式 ， 用 于 解决 网 络 数据 的 转发 问题 ， 但 不 
能 提供 有 差别 的 服务 。 策 略 路 由 使 网 络 管理 者 不 仅 能 够 根据 目的 地 址 ， 而 且 能 够 根据 源 
地 址 、 报 文大 小 和 链 路 质量 等 属性 来 制定 策略 路 由 ， 以 改变 数据 包 转 发 路 径 。 策 略 路 由 
按照 用 户 的 需求 来 制定 策略 路 由 ， 增 强 了 路 由 选择 的 灵活 性 和 可 控 性 。 

5.2.4.1 策略 路 由 的 工作 特性 

普通 的 路 由 转发 : 当 设 备 需要 转发 数据 包 时 , 首先 查找 路 由 表 中 是 否 有 该 路 由 条 目 ， 
若 路 由 表 中 不 存在 ， 则 数据 包 被 丢弃 。 

配置 策略 路 由 后 : 当 设 备 需 要 转发 数据 包 时 ， 系 统 首先 根据 用 户 制 定 的 策略 进行 转 
发 ， 即 使 路 由 表 中 不 存在 该 路 由 条 目 ， 若 没有 配置 策略 或 者 配置 的 策略 路 由 找 不 到 匹配 
项 时 ， 再 查找 路 由 表 转 发 。 

5.2.4.2 策略 路 由 的 功能 及 应 用 场景 

表 5-3 是 策略 路 由 的 功能 及 应 用 场景 的 介绍 。 

表 5-3 策略 路 由 的 功能 及 应 用 场景 介绍 
策略 路 由 类 别 | ee 


”| 对 本 设备 发 送 的 报 文 实现 
本 地 策略 路 由 | 策略 路 由 , 比如 本 机 下 发 的 
ICMP、BGP 等 协议 报 文 


对 本 设备 转发 的 报 文生 效 ， 
对 本 机 下 发 的 报 文 不 生效 













当 用 户 需要 使 不 同 源 地 址 报 文 或 者 不 同 长 度 的 报 文通 
过 不 同 的 方式 进行 发 送 时 ， 可 以 配置 本 地 策略 路 由 
当 用 户 需要 将 到 达 接 口 的 某 些 报 文 通过 特定 的 下 一 跳 
地 址 进行 转发 时 ， 需 要 配置 接口 策略 路 由 。 使 匹配 重 
定向 规则 的 转发 报 文通 过 特定 的 下 一 跳出 口 进行 转 
发 ， 不 匹配 重 定向 规则 的 转发 报 文 根 据 路 由 表 转 发 。 
接口 策略 路 由 多 应 用 于 负载 分 担 和 安全 监控 


基于 链 路 质量 信息 为 业务 | 当 用 户 需要 为 不 同业 务 选 择 不 同 质量 的 链 路 时 ， 可 以 
流 选择 最 佳 链 路 配置 智能 策略 路 由 
5.2.4.3 ”案例 研究 : 配置 本 地 策略 


场景 描述 : 如 图 5-10 所 示 ， 配 置 策略 路 由 使 R1 在 没有 路 由 的 情况 下 直接 通过 策略 
来 访问 R2。 






接口 策略 路 由 










智能 策略 路 由 


GO/0/0 





图 5-10 配置 policy-based-route 工具 
有 具体 操作 步骤 如 下 。 
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第 1 步 : 匹配 出 源 地 址 。 

区 1] acl2000 

[Ri-aci-basic-2000] rule 10 permit Source 1.1.1.1 0 

[R1-acl-basic-2000] quit 

在 R1 上 匹配 源 地 址 为 1.1.1.1。 

第 2 步 : 创建 策略 路 由 和 策略 点 。 

[R1] policy-based-route PBR 

[RI] policy-based-route PBR permit node 10 

[Rl-policy-based-route-PBR-10] if-match acl 2000 

[Rl-policy-based-route-PBR-10] apply ip-address next-hop 12.1.1.2 

[Rl-policy-based-route-PBR-10] quit 

创建 策略 路 由 ， 匹 配 到 ACL 2000 执行 策略 ， 将 下 一 跳 地 址 设置 为 12.1.1.2， 由 于 前 
面 将 源 地 址 1.1.1.1 匹配 到 了 ， 如 果 R1 有 一 个 以 该 地 址 为 源 的 数据 包 发 送出 去 ， 那 么 将 
会 首先 匹配 到 策略 , 将 数据 包 直 接 转发 给 下 一 跳 地 址 为 12.1.1.2。 如果 没有 匹配 到 该 源 地 


址 的 数据 包 ， 则 正常 查找 路 由 表 进 行 转发 。 

说明: 

在 apply 后 面 设 置 的 动作 不 仅 可 以 配置 下 一 跳 地 址 ， 也 可 以 配置 出 接口 apply 
output-interface、 配 置 报 文 优先 级 apply ip-precedence 等 。 


第 3 步 : 应 用 策略 路 由 。 

[R1] ip local policy-based-route PBR 

在 本 地 调用 策略 ， 仅 仅 是 对 本 地 始 发 的 数据 包 进 行 策略 转发 。 
查看 R1 的 路 由 表 ， 目 前 是 没有 R2 的 2.2.2.2 网 段 路 由 。 
<R1>display ip routing-table 

Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 10 Routes : 10 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
1.1.1.0/24 Direct 0 0 Dy LoopBackl 
1.1.1.1/32 Direct 0 0 D 127.0.0.1 LoopBackl 
1.1.1.255/32 Direct 0 0 De "127.0.03 LoopBackl 
12.1.1.0/24 Direct 0 0 ol sa GigabitEthernet0/0/0 
12.1.1.1/32 Direct 0 0 D 127.0.0.1 GigabitEthernet0/0/0 
12.1.1.255/32 Direct 0 0 DY “127.0:0.1 GigabitEthernet0/0/0 
127.0.0.0/8 Direct 0 0 DD" T2770.0.1 InLoopBack0 
127.0.0.1/32 ”Direct 0 0 D 127.0.0.1 InLoopBack0 
127.255.255.255/32 Direct 0 0 D 127.0.0.l InLoopBack0 
255:255.255.255/32 “Direct 0 7 0 D 127.0.0.1 InLoopBack0 


使 用 PING 去 验证 ， 无 法 PING 通 2.2.2.2。 


<RI>ping 2.2.2.2 

PING 2.2.2.2: 56 data bytes, press CITRL_C to break 
Request time out 
Request time out 
Request time out 
Request time out 
Request time out 

~-- 2.2.2.2 ping statistics --- 
5 packet(s) transmitted 
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0 packet(s) received 
100.00% packet loss 


由 于 R1 默认 使 用 物理 接口 发 送 数据 包 ， 源 地 址 使 用 的 是 12.1.1.1， 该 地 址 不 能 被 策 
略 匹 配 到 ， 将 按照 正常 的 方式 转发 数据 ， 由 于 没有 路 由 ， 数 据 包 将 会 被 丢弃 掉 。 
带 源 地 址 为 1.1.1.1 去 验证 : 


<R1>ping -a 1.1.1.1 2.2.2.2 
PING 2.2.2.2; 56 data bytes, press CTRL C to break 
Reply from 2.2.2.2: bytes=56 Sequence=1 ttl=255 time=50 ms 
Reply from 2.2.2.2: bytes=56 Sequence=2 ttl=255 time=10 ms 
Reply from 2.2.2.2: bytes=56 Sequence=3 ttl=255 time=20 ms 
Reply from 2.2.2.2: bytes=56 Sequence=4 tt]=255 time=10 ms 
Reply from 2.2.2.2: bytes=56 Sequence=5 ttl=255 time=1 ms 
-一 2.2.2.2 ping statistics -~- 
5 packet(s) transmitted 
5 packet(s) received 
0.00% packet loss 
round-trip min/avg/max = 1/18/50 ms 


观察 发 现 R1 使 用 源 地 址 1.1.1.1 可 以 PING 通 R2 ( 注 : R2 有 到 R1 网 段 的 路 由 )， 
数据 包 的 源 地 址 被 策略 匹配 到 ， 无 需 查找 路 由 表 ， 直 接 转 发 下 一 跳 地 址 12.1.1.2。 

5.2.4.4 案例 研究 : 配置 接口 策略 实现 基于 源 的 负载 分 担 

场景 描述 : 如 图 5-11 所 示 ， 在 R1 上 配置 基于 接口 策略 路 由 ， 实 现 PC-1 的 数据 流 
量 经 过 R2 访问 R4，PC-2 的 数据 流量 经 过 R3 访问 R4。 






Eo/0/1 


图 5-11 ”配置 流 策略 工具 


分 别 通过 ACL 2000 和 ACL 2001 匹配 出 PC-1 和 PC-2 两 种 数据 流 。 
[Rl]acl 2000 
[R1-acl-basic-2000]rule 10 permit source 192.168.1.1 0 
[R1-acl-basic-2000]quit 
[Rilacl 2001 

[R1-acl-basic-2001]rmle 10 permit source 192.168.1.20 
分 别 为 PC-1 和 PC-2 创建 两 个 流 分 类 。 
[R1]traffic classifier PC-1 

[Rl-classifier-PC-1]if-match acl 2000 
[R1-classifier-PC-1]quit 

[R1ljtra 值 c classifier PC-2 

[Rl-classifier-PC-2]if-match acl 2001 
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创建 流行 为 ， 设 置 重 定向 下 一 跳 地 址 ， 将 192.168.1.1 重 定 向 到 10.1.12.2， 源 地 址 


192.168.1.2 重 定向 到 10.1.12.3， 实 现 基于 源 的 负载 分 担 。 
[R1]traffic behavior R2 
[Rl1-behavior-R2]redirect ip-nexthop 10.1.12.2 
[R1-behavior-R2]quit 
[Rl]traffic behavior R3 
[R1-behavior-R3]redirect ip-nexthop 10.1.13.3 


创建 流 策略 ， 将 流 分 类 与 流 策略 做 关联 。 

[Rlltraffic policy PBR 

[Rl-trafficpolicy-PBR]classifier PC-1 behavior R2 

[R1-trafficpolicy-PBR]celassifier PC-2 behavior R3 

在 接口 的 入 方向 调用 流 策略 。 

[R1linterface GigabitEthernet 0/0/2 

[R1-GigabitEthermet0/0/2]traffic-policy PBR inbound 

说 明 : 

流 策略 的 功能 非常 强大 ， 利 用 该 方式 来 实现 流量 负载 分 担 非常 方便 和 灵活 ， 该 方式 也 
常 被 用 在 QoS 中 来 使 用 。 流 分 类 不 仅 能 使 用 ACL 来 匹配 ， 也 可 以 根据 MAC 地 址 、 报 文 优 
先 级 、VLAN-ID 等 来 匹配 。 流 行为 中 设 定 了 重 定向 地 址 ， 将 符合 规则 的 源 地 址 直接 根据 策 
略 重 定向 到 该 地 址 ， 而 流 策略 用 于 将 流 分 类 和 流行 为 进行 关联 ， 实 现 不 同 的 源 地 址 重 定 
向 到 不 同 的 下 一 跳 地 址 。 一 般 的 数据 报 文 只 能 查找 路 由 表 基 于 目标 进行 负载 均衡 ， 而 通 
过 流 策略 的 方式 能 够 达到 基于 源 地 址 负载 均衡 的 目的 ， 且 无 需 查 找 路 由 表 。 


5.3 ”聚合 路 由 和 默认 路 由 


5.3.1 聚合 路 由 


任何 路 由 协议 都 设计 了 路 由 聚合 的 技术 ， 设 计 初 ”是 考虑 当 网 络 规模 变 大 时 ， 路 由 
表 中 路 由 条 目 过 多 会 降低 路 由 器 查找 速度 。 为 了 解决 这 个 问题 ， 配 置 路 由 聚合 ， 减 小 路 
由 表 的 规模 ， 降 低 管理 的 复杂 度 ， 同 时 也 会 降低 路 由 更 新 的 大 小 。 

5.3.1.1 聚合 路 由 的 将 点 

(1) 多 条 “ 细 ”( 更 精确 ) 路 由 聚合 成 一 条 “ ”路 由 , 这 条 ”路 由 其 实 是 所 有 “ 细 ” 
路 由 共同 拥有 的 路 由 前 绥 。 

(2) 路 由 聚合 时 ， 至 少 有 一 条 细 路 由 ， 聚 合 路 由 就 可 以 生成 ; 某 条 成 员 路 由 的 消失 ， 
不 会 影响 聚合 路 由 的 生成 ;而 如 果 聚 合 路 由 范围 内 的 细 路 由 不 存在 ， 则 聚合 路 由 也 将 消失 。 

(3) 聚合 路 由 的 存在 和 是 和 否 通告 完全 依赖 于 细 路 由 《也 可 称 为 聚合 路 由 的 成 员 路 
由 )。 例 : 10.1.1.0/24、10.1.2.0/24、10.1.3.0/24 这 3 条 路 由 可 以 聚合 成 10.1.0.0/16 位 的 路 

， 只 要 3 条 路 由 中 的 任何 一 条 或 多 条 存在 在 路 由 表 中 ， 聚 合 路 由 就 可 以 通告 。 

(4) 聚合 发 生 后 ， 路 由 器 将 会 自动 抑制 成 员 路 由 的 通告 ， 而 仅 通 告 聚 合 路 由 。 

(5) 执行 聚合 的 路 由 器 会 向 外 通告 聚合 路 由 ， 某 些 路 由 协议 会 在 聚合 路 由 器 的 路 由 
表 中 生成 一 条 指向 NULL0 接口 的 聚合 路 由 ， 华 为 的 协议 实现 中 , 仅 IS-IS 有 能 力 在 聚合 


i 268 


ER RE gh | 第 五 章 路 由 控制 | 
后 的 路 由 表 中 出 现 一 条 指向 NULL0 接口 的 路 由 ， 这 条 路 由 用 于 避免 环 路 。 
(6) 某 些 路 由 协议 的 聚合 路 由 会 继承 成 员 路 由 的 某 些 属性 ，OSPF 协议 将 会 继承 细 
路 由 中 最 大 的 cost 值 、IS-IS 协议 会 继承 细 路 由 中 最 小 的 cost 值 。 
5.3.1.2 各 协议 配置 聚合 路 由 的 命令 
表 5-4 是 聚合 路 由 的 命令 。 
表 5-4 ”聚合 路 由 的 命令 
| 配置 命令 | | | 


 ， 1 | avoid-feedba | 生成 
rip summary-address ip-address mask [ avoid- 


asbr-summary ip-address mask [ not- 
advertise | tag tag | cost cost | distribute- 不 支持 
delay interval ] 

summary ip-address mask [ avoid-feedback | 

generate_null0_route | tag tag | [ level-1 | 

level-1-2 | level-2 ] ] 

5.3.1.3 ”聚合 路 由 的 优点 

1. 能 减少 路 由 表 的 大 小 ， 降 低 系统 开销 ， 减 少 路 由 更 新 的 大 小 。 

2. 聚合 路 由 能 有 效 解决 路 由 震荡 的 问题 ， 例 如 ， 被 聚合 的 IP 地 址 范围 内 的 某 条 链 
路 频繁 Up 和 Down， 该 变化 并 不 会 影响 到 被 聚合 的 IP 地 址 范围 外 的 设备 。 因 此 ， 可 以 
避免 网 络 中 的 路 由 振荡 ， 在 一 定 程度 上 提高 了 网 络 的 稳定 性 。 

5.3.1.4 聚合 路 由 的 缺点 

1. 聚合 路 由 的 IP 范围 若 设计 得 过 大 会 存在 路 由 黑洞 。 例 : 在 聚合 路 由 器 上 对 
10.1.0.0/24、10.1.1.0/24、10.1.2.0/24、10.1.3.0/24 做 聚合 ， 聚 合 路 由 10.1.0.0/16 被 通告 给 
下 游 路 由 器 ， 访 问 10.1.4.x 的 数据 包 会 治 聚 合 路 由 访问 到 聚合 点 路 由 器 ， 因 没有 细 路 由 
而 被 丢弃 ， 形 成 黑洞 。 

2. 聚合 路 由 能 减少 路 由 表 中 精确 路 由 的 数量 ， 某 些 场 景 下 ， 会 引起 次 优 路 由 。 

3. 某 些 路 由 协议 没有 在 聚合 后 生成 用 于 防 环 的 NULL 0 接口 的 路 由 ,所 以 网 络 中 易 
引起 路 由 环 路 。 

案例 1: 单个 路 由 协议 聚合 造成 的 环 路 问题 

场景 描述 : 如 图 5-12 所 示 ，R1 上 对 10.1.1.1/32 执行 路 由 聚合 ， 生 成 10.1.0.0/16 聚 


合 路 由 ， 并 通告 给 R2 和 R3。 同 理 ，R3 对 10.1.2.1/32 聚合 后 ， 生 成 10.0.0.0/8 聚合 路 由 ， 
通告 给 R2 和 R1。 






























RIP 










IS-IS 








10.1.2.1/32 


Summary 10.1.0.0/16 Summary 10.0.0.0/8 


图 5-12 路 由 聚合 造成 的 环 路 问题 


案例 分 析 : 图 中 的 路 由 协议 无 法 自动 生成 NULL 0 路 由 。R1 路 由 表 中 仅 有 2 条 路 由 : 
一 条 是 直 连 路 由 10.1.1.1/32， 一 条 是 动态 路 由 10.0.0.0/8， 指 向 R2。 同 理 ，R2 上 有 2 条 
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路 由 ， 一 条 是 10.1.0.0/16， 指 向 R1; 一 条 是 10.0.0.0/8 指向 R3。R3 上 有 2 条 路 由 ， 一 
条 是 10.1.2.1/32 的 直 连 路 由 ， 一 条 是 10.1.0.0/16 的 路 由 ， 指 向 R2。 

如 果 R1 收 到 访问 10.1.5.5 的 数据 报 文 ，R1 查 路 由 表 并 转发 给 R2，R2 继续 查 路 由 
表 ， 按 10.1.0.0/16 精确 路 由 的 指向 而 转发 给 R1。 重 复 这 个 过 程 ，R1 再 次 把 报 文 转 发 给 
R2， 路 由 环 路 出 现 ， 数 据 包 直至 TTL 减 到 0 而 丢弃 。 

解决 方法 : 可 以 在 当前 环境 中 ， 在 R1 和 R3 通告 聚合 路 由 时 ， 在 路 由 表 中 创建 
NULL 0 路 由 。 

R1 上 添加 : ip route-static 10.1.0.0 16 null 0 

R3 上 添加 : ip route-static 10.0.0.08 null0 

车 R1 收 到 访问 10.1.5.5 的 数据 报 文 ， 则 R1 转发 给 NULL 0 接口 而 丢弃 。 同 理 ，R2 
若 收 到 10.1.5.5 的 数据 报 文 ，R2 转发 给 R1，R1 给 NULL0 接口 。 


这 议 ;: 

在 做 路 由 聚合 时 ， 可 能 会 造成 环 路 问题 ， 可 考虑 在 执行 聚合 的 路 由 器 上 添加 NULL 0 
路 由 或 过 滤 路 由 ， 使 其 不 接收 其 他 默认 路 由 或 粗 路 由 ， 以 避免 环 路 。 但 由 于 部 分 路 由 协 
议 的 preference 值 小 于 静态 路 由 的 preference 值 60， 防 止 静态 路 由 配置 后 无 法 进入 路 由 表 ， 
可 为 NULL 0 路 由 指定 preference。 如 上 例 中 ，R1 上 可 添加 ip route-static 10.1.0.0 16 null 0 
preference 1，R3 上 添加 ip route-static 10.0.0.0 8 null 0 preference 1。 


案例 2: 双向 路 由 引入 做 聚合 造成 的 环 路 问题 

场景 描述 : 如 图 5-13 所 示 ，R1/R2/R3 运行 IS-IS 协议 ，R2/R3/R4 运行 RIP 协议 ， 
R4 有 三 条 路 由 通告 进 RIP 中 ，R2 和 R3 是 自治 系统 域 边界 设备 ， 并 且 做 了 双向 路 由 引 
入 ， 为 了 减少 IS-IS 区 域 路 由 的 数量 ，R2 和 R3 分 别 向 IS-IS 区 域内 做 了 路 由 聚合 ,但 是 
聚合 将 会 造成 路 由 环 路 。 


人 站 72.16.1.0/24 
172.16.2.0/24 
172.16.3.0/24 





图 5-13 ”路 由 引入 聚合 造成 的 环 路 问题 
问题 分 析 : R2 和 R3 从 RIP 协议 学 到 路 由 引入 进 IS-IS 时 做 了 路 由 汇总 ， 将 三 条 路 
由 聚合 成 一 条 172.16.0.0/16。 该 路 由 会 在 IS-IS 区 域内 泛 洪 ， 被 R2 和 R3 重新 学 习 到 ， 
R2 学 到 的 聚合 路 由 是 由 R3 产生 的 ， 而 R3 学 到 的 聚合 路 由 是 由 R2 产生 的 。 那 么 在 R3 
的 路 由 表 中 有 条 聚合 路 由 172.16.0.0/16， 下 一 跳 指 向 R1，R1 指向 R2; 同 理 ，R2 的 路 由 
表 中 也 存在 一 条 聚合 路 由 下 一 跳 指向 R1，R1 指向 R3。 此 时 如 果 R2 有 一 个 数据 包 需 要 
访问 172.16.4.0/24 网 段 ， 由 于 没有 这 条 明细 路 由 ， 这 个 数据 包 将 会 匹配 到 聚合 路 由 
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172.16.0.0/16， 而 在 路 由 表 中 该 路 由 指向 下 一 跳 地 址 为 R1，R1 又 指向 R3，R3 收 到 该 报 
文 后 也 没有 明细 路 由 , 同样 会 匹配 到 172.16.0.0/16 聚合 路 由 , 数据 包 又 发 给 R1 再 到 R2， 
这 样 就 会 在 R1/R2/R3 之 间 形 成 环 路 。 

解决 思路 1: 在 做 聚合 的 时 候 ， 可 以 在 summary 后 面 添加 参数 avoid-feedback 来 防 
止 环 路 。 该 参数 主要 用 来 防止 从 该 接口 重新 接收 这 条 聚合 路 由 ， 这 样 R2 和 R3 就 不 会 再 
接收 对 方 产生 的 聚合 路 由 了 。 但 是 需要 注意 的 是 ， 如 果 R2 和 R3 并 不 聚合 相同 的 地 址 ， 
比如 一 个 设备 聚合 为 172.16.0.00/16， 另 外 一 个 设备 聚合 为 172.16.0.0/8， 那 么 双方 仍然 能 
够 收 到 各 自 的 聚合 路 由 ， 因 此 通过 该 方式 并 不 能 够 保证 绝对 的 防 环 。 

解决 思路 2: 为 R2 和 R3 手工 添加 一 条 静态 的 路 由 ， 下 一 跳 指向 null 0。 命 令 : ip 
route-static 172.16.0.0 16 null 0， 当 R2 和 R3 访问 一 个 本 地 没有 的 细 路 由 时 ， 匹 配 到 该 
聚合 路 由 后 将 直接 丢弃 掉 该 数据 包 ， 从 而 打破 环 路 。 但 是 如 果 在 设备 上 添加 静态 路 由 需 
要 注意 路 由 优先 级 的 问题 ， 静 态 路 由 的 优先 级 为 60， 而 IS-IS 的 优先 级 为 15， 如 果 采 用 
默认 值 ， 这 条 静态 路 由 是 不 会 加 入 到 路 由 表 的 ， 因 此 在 静态 路 由 的 后 面 添加 preference 
参数 ， 将 优先 级 改 得 比 15 更 小 ， 才 能 放 进 路 由 表 。 

解决 思路 3: 在 R2 和 R3 通过 filter-policy import 工具 将 对 方 发 送 的 聚合 路 由 进行 过 
滤 ， 阻 止 R2 和 R3 接收 对 方 的 聚合 路 由 。 


5.3.2 ”默认 路 由 


任何 路 由 协议 都 有 生成 默认 路 由 的 命令 ， 路 由 器 如 果 在 路 由 表 中 无 法 找到 数据 包 所 
匹配 的 精确 的 路 由 ， 会 把 数据 包 按 默 认 路 由 转发 ， 每 个 路 由 协议 都 提供 自动 生成 默认 的 
配置 。 

默认 路 由 的 应 用 场景 : 

a 默认 路 由 多 用 在 远 端 分 支 机 构 单 链 路 上 连 或 多 链 路 上 连 ， 备 用 路 径 由 上 游 向 下 

游 通告 默认 路 由 。 或 不 需要 太 多 路 由 条 目的 场合 一 一 单 宿主 场合 。 
=m 上游 向 下 游 通告 默认 路 由 。 


注 营 
产生 默认 路 由 的 路 由 器 ， 一 定 不 要 再 接收 默认 路 由 ， 否 则 会 出 现 环 路 。 


场景 描述 : 如 图 5-14 所 示 ，R5 上 对 10.0.X.0/24 进行 汇总 ， 汇 总 为 10.0.0.0/16; 在 
R3 和 R4 向 OSPF 区 域 下 发 默认 路 由 。R3 访问 10.0.4.1，R3 转发 给 R5，R5 转发 给 R4， 
R4 转发 给 R5，R5 转发 给 R3， 环 路 产生 。 

问题 描述 : R3 和 R4 都 会 收 到 R5 发 布 的 聚合 路 由 10.0.0.0/16， 而 Rs 会 收 到 两 条 默 
认 路 由 ， 如 果 R3 访问 一 个 网 段 为 10.0.4.0， 将 会 匹配 到 聚合 路 由 ， 数 据 包 到 达 R5，R5 
匹配 到 默认 路 由 发 送 给 R4，R4 再 次 匹配 到 默认 路 由 发 布 给 R5， 然 后 再 到 达 R3， 继 而 
产生 环 路 。 

R3 的 配置 及 路 由 表 : 

[R3]display current-configuration 


ospf 1 ; 
default-route-advertise always 
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[R3]display ip routing-table 
Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 12 Routes : 12 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
10.0.0.0/16 O ASE 150 2 Dsls GigabitEthernet0/0/1 
其 他 路 由 省 略 ……。 





rasbr-summary 10.0.0.0. 255.255.0.0 | 


S| 
i 


10.0.1.0/24 
10.0.2.0/24 
10.0.3.0/24 


S1/0/0 SS1/0/0 


图 5-14 默认 路 由 造成 的 环 路 问题 
R4 配置 及 路 由 表 : 


<R4>display current-configuration 
ospf 1 
default-route-advertise always 
<R4>display ip routing-table 
Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 12 Routes : 12 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
10,0.0.0/16 O ASE 150 2 D 45.1.1.5 GigabitEthernet0/0/0 
其 他 路 由 省 咯 …… 
Rs 的 配置 及 路 由 表 : 
<R5>display current-configuration 
ospf 1 
asbr-summary 10.0.0.0 255.255.0.0 
<R5>display ip routing-table 
Route Flags: R-relay, D-downioad to fib 
Routing Tables: Public 
Destinations : 23 Routes : 24 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
00000m -ONTASEr ISO 也 D 45.1.1.4 GigabitEthernet0/0/0 
OASE- -150 1 Do.353 GigabitEthernet0/0/1 
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其 他 路 由 省 略 ……- 
查看 R3 的 路 由 表 : 
使 用 tracert 命令 来 跟踪 10.0.4.1。 


<R3>tracert 10.0.4.1 

135.1.1.560ms S50ms 30ms 
245.1.1.460ms 80ms 60ms 

3 45.1.1.5 70 ms 60ms35.1.1.5 60 ms 
435.1.1.360ms 70ms 60ms 
535.1.1.590ms 80 ms 45.1.1.5 90 ms 
645.1.1.4 110ms 110 ms 140 mas 
745.1.1.5 100 ms 35.1.1.5 100 ms 110 mas 


结果 表明 : 当 tracert 有 一 个 不 存在 的 、 但 是 在 网 络 10.0.0.0/16 内 的 地 址 时 ， 会 发 生 环 
路 。 该 环 路 的 产生 主要 是 由 于 OSPF 产生 聚合 路 由 时 ， 不 能 生成 指向 NULL 0 的 路 由 所 致 。 

解决 方法 : 在 R3 和 R4 上 添加 静态 到 达 10.0.0.0/16 的 路 由 指向 NULL 0 接口 。 

各 协议 发 布 默认 路 由 对 比 见 表 5-5 所 示 。 

表 5-5 各 协议 发 布 默 认 路 由 对 比 


需 加 always 才能 无 条 件 发 布 ， 无 always 参 
数 则 需要 路 由 表 中 存在 一 条 静态 默认 路 由 方 
可 发 布 , 可 以 通过 route-policy 定义 有 条 件 发 
布 , 通过 type 设置 默认 路 由 为 类 型 112，cost 
定义 度量 值 ， 配 置 了 permit-calculate-other 
的 设备 仍 可 以 计算 来 自 其 他 设备 的 默认 路 由 


类 似 OSPF， 可 以 选择 添加 always 无 条 件 发 





























default-route-advertise [ [ always | 
permit-calculate-other ] | cost cost 
| type type | route-policy route- 
policy-name ] 





OSPF 



















default-route-advertise [ always | 


match default | route-policy route- | 布 ， 也 可 以 通过 route-policy 定义 有 条 件 发 Re 
IS-IS Pe emt 旬 | | 布 ， 可 以 设置 默认 路 由 的 cost、tag、level， er 
vel-1-2 | leve Sr : . 、 
[avoidqearpiag] 可 以 通过 avoid-learning 来 阻止 再 次 接收 默 | 《避免 


认 路 由 


5.4 ”路 由 引入 


5.4.1 路 由 引入 


园区 网 络 部 署 可 以 使 用 单一 路 由 协议 ， 也 可 以 同时 使 用 多 种 路 由 协议 ， 多 种 路 由 协 
议 共存 ， 多 用 于 多 厂商 的 路 由 环境 、 网 络 合 并 (同一 协议 或 是 不 同 协 议 )、 从 旧 的 路 由 
协议 过 渡 到 新 的 路 由 协议 、 路 由 策略 的 需要 〈 可 靠 性 、 宛 余 性 、 分 流 模型 ) 等 。 多 种 路 
由 协议 共存 会 增加 网 络 的 复杂 性 ， 更 重要 的 是 设计 中 要 保证 全 网 的 可 达 性 ， 需 要 相互 引 
入 ， 这 更 增加 了 引入 次 优 路 径 或 路 由 环 路 的 机 会 。 

IETF 对 任何 一 种 路 由 协议 都 经 过 “精心 设计 ”， 使 协议 在 收敛 性 能 、 算 法 、 环 路 避 
免 、 次 优 路 径 、 路 由 震荡 等 方面 都 有 解决 办 法 。 但 却 无 法 解决 协议 之 间 互 相 引入 而 致 的 
环 路 、 次 优 路 径 、 收 敛 慢 等 问题 ， 这 需要 工程 师 根据 设计 场景 而 手工 控制 。 
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5.4.1.1 路 由 引入 的 原理 

如 果 网 络 中 存在 多 种 协议 并 存 ， 而 一 台 自 治 系统 边界 设备 上 同时 运行 了 两 种 路 由 协 
议 ， 为 了 确保 路 由 被 其 他 协议 学 习 到 ， 需 要 做 路 由 的 引入 操作 。 路 由 引入 时 ， 将 出 现在 
路 由 表 中 的 一 个 协议 的 路 由 注入 到 另外 一 个 路 由 协议 中 ， 对 另外 的 协议 而 言 ， 这 些 引入 
的 路 由 称 为 “外 部 路 由 ”。 

任何 路 由 协议 彼此 间 都 可 以 引入 其 他 协议 的 路 由 《〈 如 : RIP、IS-IS、OSPF、BGP)， 
也 可 以 将 直 连 或 静态 路 由 进行 引入 ， 目 的 是 为 了 使 运行 本 协议 的 路 由 器 能 够 学 习 到 外 部 
的 路 由 。 

示例 1: RIP 

import-route { { static | direct | unr } | { { rip | ospf | isis } [process-id ] } } [ cost cost | route-policy route-policy-name ] 

说 明 : 

在 RIP 进程 中 可 以 选择 引入 其 他 协议 或 者 静态 / 直 连 路 由 ， 可 以 通过 cost 来 指定 外 部 路 
由 的 开销 值 ， 如 果 没 有 配置 则 用 缺 省 ， 通 过 route-policy 来 定义 引入 符合 指定 策略 的 路 由 。 

import-route bgp [ permit-ibgp ] [ cost { cost | transparent } | route-policy route-policy-name ] 

说 明 : 

permit-ibgp 用 来 指定 公 网 实例 下 的 RIP 进程 可 以 引入 iBGP 路 由 ，transparent 参数 只 在 引 
入 BGP 路 由 时 有 效 ， 引 入 路 由 的 开销 值 为 BGP 路 由 的 MED 值 。 


示例 2: OSPF 

import-route { limit limit-number | { bgp [ permit-ibgp ] | direct | unr | rip [ process-id-rip ] | static | isis [ process-id-isis ] 
| ospf [process-id-ospf | } [ ¢ost cost | type type | tag tag | route-policy route-policy-name ] 

说 明 : 

在 OSPF 进程 中 可 以 选择 引入 其 他 协议 或 者 静态 / 直 连 路 由 ， 通 过 cost 来 指定 外 部 路 由 
的 开销 值 ， 通 过 type 设置 类 型 ， 通 过 tag 设置 路 由 标记 ， 通 过 route-policy 来 定义 引入 符合 
指定 策略 的 路 由 。 


示例 3: IS-IS 

import-route protocol [ process-id ] [ cost-type { external | internal } | ¢ost cost | tag tag | route-policy route-policy-name | 
[ level-1 llevel-2 | level-1-2 ] ] 

说 明 : 

在 15-IS 引入 外 部 路 由 时 , cost-type 用 来 指定 外 部 路 由 的 开销 类 型 , 缺 省 为 external (cost= 
源 costt64) 、internal (继承 源 cost 值 ) 。level-1/2 用 来 指定 外 部 路 由 引入 到 哪个 路 由 表 中 ， 
如 果 未 指定 级 别 ， 默 认 引 入 到 level-2 中 。 

import-route { { rip | isis | ospf 》 [process-id] | bgp } inherit-cost [ tag tag | route-policy route-policy-name | [level-1 | 
level-2 llevel-1-2 ] ] 7 . - 

说 明 : 

引入 外 部 路 由 BGP 时 ， 只 能 引入 eBGP 的 路 由 ,不 能 引入 iBGP 的 路 由 。inherit-cost 是 指 
引入 的 外 部 路 由 保留 原 有 的 开销 值 ， 如 果 配 置 了 该 参数 则 不 能 再 配置 引入 路 由 的 开销 值 
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和 开销 类 型 ， 也 可 在 IS-IS 协议 路 由 泄露 时 使 用 。 


示例 4: BGP 

import-route { direct | isis process-id | ospf process-id | rip process-id | unr | static } [ med med | route-policy orle-Policy-mame ] 

说 明 : 

引入 外 部 路 由 时 ,med 用 来 指定 外 部 路 由 的 度量 值 ，route-policy 用 来 定义 引入 符合 指 
定 策略 的 路 由 。 


路 由 引入 规则 1: 一 种 路 由 协议 在 引入 其 他 路 由 协议 时 ， 只 引入 路 由 协议 在 路 由 表 
中 存在 的 路 由 ， 不 出 现在 路 由 表 中 的 路 由 是 不 会 被 引入 的 ， 这 种 对 路 由 表 中 路 由 进行 控 


制 的 行为 是 矢量 行为 。 
示例 1: 如 图 5-15 所 示 ，R2 是 ASBR， 在 未 做 路 由 引入 时 观察 R2 的 路 由 表 。 
[r2]display ip routing-table 


Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 22 Routes : 22 

Destination/Mask Proto Pre Cost Flags NextHop Interface 
10.1.3.0/24 IS-IS-L215 10 DIL233 GigabitEthernet0/0/1 
10.1.4.0/24 IS-IS-L215 10 BB: 10.1233 GigabitEthemet0/0/1 
172.16.1.0/24 RIP 100 1 D- 172.16.12.1 GigabitEthernet0/0/0 
172.16.2.0/24 RIP 100 1 W 2 61: GigabitEthernet0/0/0 
192.168.4.0/24 OSPF Or At D 192.168.244 GigabitEthemet0/0/2 
192.168.5,0/24 OSPF 0 wi D 192.168.24.4 GigabitEthemet0/0/2 

其 他 路 由 省 略 ……。 

BE RI Wh IS-IS R3 Ss 












G0/010 攻 


10.1.3.0/24\) 
民 10.1.4.0/24 2/ 





bs 
\ 172.16.2.0/24 









~ 
es i 





/0yCZ 1 oOl BD 


Z 





四 


图 5-15 多 协议 路 由 引入 


R2 分 别 从 通过 IS-IS、RIP、OSPF 学 习 到 各 自 环 回 口 路 由 。 

问题 1: R2 将 IS-IS 引入 到 OSPF 中 ，R4 能 学 到 哪些 路 由 ? 

问题 分 析 : R2 将 本 地 的 IS-IS 路 由 表 中 的 路 由 10.1.3.0/24、10.1.4.0/24、10.1.23.0/24 
引入 进 OSPF， 并 通过 OSPF 协议 传递 给 R4， 因 此 R4 能 够 学 到 这 三 条 路 由 。 

问题 2: R2 继续 将 OSPF 引入 RIP，R1 能 学 到 哪些 路 由 ? 
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问题 分 析 : R2 将 本 地 OSPF 路 由 表 中 的 路 由 192.168.4.0/24、192.168.5.0/24、 
10.1.24.0/24 引入 进 RIP， 并 通过 RIP 协议 传递 给 R1， 因 此 R1 只 能 学 习 到 这 三 条 路 由 。 
但 是 IS-IS 中 的 三 条 路 由 10.1.x.0/24 是 无 法 学 习 到 的 ， 原 因 在 于 R2 通过 IS-IS 协议 学 到 
这 三 条 路 由 ， 但 R2 并 没有 将 IS-IS 引入 进 RIP 协议 ， 所 以 路 由 也 不 会 传递 给 R1， 再 观 
察 Rl1 的 路 由 表 。 

<rl>display ip routing-table 

Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 19 Routes : 19 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
192.168.4.0/24 RIP 100 1 D 172.16.12.2 GigabitEthernet0/0/0 
192.168.5.0/24 RIP 100 1 e622 GigabitEthernet0/0/0 
10.1.24.0/24 RIP 100 1 i ety Al GigabitEthernet0/0/0 
其 他 路 由 省 略 …… 


示例 2: 如 下 图 5-16 所 示 ，R2 分 别 通过 IS-IS 和 RIP 协议 学 习 到 100.1.1.0/24 路 由 ， 
R2 将 RIP 引入 到 OSPF 中， 那么 R4 能 否 学 习 到 该 路 由 ? 


Be i 
De ~ 
一 


一 二 一 一 一 一 一 一 二 一 二 
一 一 
2 


; SS 
恒生 100.1.1.0/24 
大 
六 
Cw 


一 me- 








soa 一 





ph 


5-16 引入 路 由 表 中 最 优 的 路 由 


问题 分 析 : R4 无 法 学 习 到 100.1.1.0/24。 因 为 R2 从 IS-IS 和 RIP 同时 学 到 此 路 由 ， 
但 出 现在 R2 的 路 由 表 中 最 优 的 路 由 条 目 来 自 于 IS-IS 协议 (IS-IS 优先 级 优 于 RIP)， 而 
R2 只 将 RIP 引入 进 OSPF， 并 没有 将 IS-IS 引入 到 OSPF， 因 此 只 能 将 RIP 的 直 连 网 段 
10.1.23.0/24 引入 进去 ， 而 100.1.1.0/24 路 由 将 会 引入 失败 ，R4 无 法 看 到 该 路 由 。 

路 由 引入 规则 2: 引入 直 连 (import direct) 和 引入 协议 (import xxx) 同时 存在 时 ， 
直 连 路 由 是 否 引入 由 import direct 来 决定 。 

问题 1: 如 图 5-17 所 示 ,， 在 R2 上 , 将 RIP 路 由 引入 到 OSPF 中 ，OSPF 能 看 到 哪些 
路 由 ? 

问题 分 析 : R2 上 有 直 连 (direct〉 和 RIP 协议 学 习 到 的 路 由 ， 引 入 到 OSPF 时 ， 这 
几 条 路 由 都 会 被 引入 OSPF。 所 以 在 OSPF 中 能 看 到 172.16.12.0/24、172.16.1.0/24、 
172.16.2.0/24 这 三 条 路 由 。 : 

问题 2: 在 上 述 需求 的 基础 上 ， 如 果 R3 仅 需 要 访问 2.2.2.0/24 网 络 ， 如 何 做 到 ? 

问题 分 析 : R2 上 已 经 引入 RIP， 但 是 环 回 接口 没有 通告 进 RIP 协议 ， 而 R2 仅仅 将 
RIP 引入 进 了 OSPF， 因 此 R3 无 法 从 R2 学 习 到 该 环 回 口 网 段 路 由 ， 只 会 学 习 到 通告 进 
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路 由 引入 
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图 5-17 在 OSPF 中 引入 RIP 协议 


问题 3; 如果 引 入 直 连 路 由 ， 通 过 route-policy 来 控制 只 引入 2.2.2.0/24， 请 问 R3 能 
否 访 问 R1? 

[R2]route-policy DIRECT permit node 10 

[R2-route-policy]if-match interface LoopBack 0 

[R2-route-policy]quit 

[R2]ospf 1 

[R2-0spf-1] import-route direct route-policy DIRECT 


问题 分 析 : R3 是 无 法 访问 R1l 的， 原因 是 R3 的 路 由 表 中 将 不 会 看 到 RIP 域 中 的 直 
连 路 由 172.16.12.0/24。 原 因 是 在 R2 上 ， 当 没有 使 用 import direct 时 ，RIP 域 中 的 直 连 路 
由 172.16.12.0/24 由 import rip 决定 是 否 引 入 ， 但 当 R2 上 引入 直 连 (import direct) 后 ， 
RIP 域 中 的 直 连 路 由 是 否 引 入 要 依赖 于 import direct， 所 以 R3 路 由 表 中 没有 RIP 域 下 的 
直 连 路 由 。 

解决 办 法 : 

1. 使 用 route-policy 工具 将 172.16.12.0/24 匹配 引入 进 OSPF。 

2. 引入 路 由 时 可 以 直接 使 用 import-route direct 来 引入 所 有 直 连 路 由 。 

5.4.1.2 路 由 的 度量 ( metric ) 

路 由 度量 是 指 用 来 衡量 到 达 目 标 网 络 所 需要 花费 的 代价 ， 每 种 路 由 协议 的 衡量 标准 
不 一 样 ， 如 RIP 协议 要 参考 的 是 跳 数 (hop)，OSPF 协议 参考 的 是 cost 值 (通过 计算 链 
路 的 带宽 得 出 的 值 )。 每 个 出 现在 协议 路 由 域内 部 的 目标 路 由 会 计算 域内 的 路 径 成 本 。 而 
外 部 引入 的 路 由 在 引入 时 要 考虑 引入 的 成 本 ， 称 为 外 部 路 由 成 本 。 

每 个 协议 的 metric 计算 方式 是 不 一 样 的 ， OSPF 和 IS-IS 是 根据 cost 值 来 计算 的 ， 而 
RIP 协议 根据 hop 来 计算 。 特别 是 RIP 协议 修改 metric 时 不 能 改 得 比 15 大 , 否则 路 由 将 
无 法 学 习 到 。 

示例 : 通过 调整 外 部 成 本 ， 解 决 次 优 路 径 问 题 。 

问题 描述 : 如 图 5-18 所 示 ，R2 和 R3 分 别 进行 双向 路 由 引入 ，R1 和 R4 分 别 都 从 
R2 和 R3 收 到 来 自 对 方 的 路 由 。 但 是 Rl 和 R4 都 会 有 两 条 次 优 路 由 ,RI1 针对 10.1.24.0/24、 
10.1.34.0/24 网 段 分 别 会 经 过 R2 和 R3 到 达 ， 而 R4 针对 10.1.12.0/24、10.1.13/24 网 段 也 
会 经 过 R2 和 R3 到 达 。 

由 于 引入 的 路 由 metric 值 都 相等 ， 路 由 表 中 将 会 等 价 负 载 分 担 。 这 样 R1 到 达 
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10.1.24.0/24 应 该 优先 从 R2 访问 ， 而 从 R3 访问 则 是 次 优 路 径 ， 同 理 ，R1 从 R2 访问 
10.1.34.0/24 也 是 次 优 路 径 。R4 到 达 10.1.12.0/24 和 10.1.13.0/24 网 段 也 会 出 现 同 样 的 
问题 。 


172.16.1.0/24 
172.16.2.0/24 
172.16.3.0/24 





图 $-18 OSPF 与 RIP 双 点 双向 路 由 引入 


以 上 原因 都 是 因为 路 由 引入 的 metric 值 相同 造成 的 ， 从 同一 个 路 由 协议 学 习 到 的 相 
同 路 由 就 会 比较 metric 值 ， 小 的 优先 ， 如 相等 则 同时 放 进 路 由 表 。 
分 析 思 路 : 在 R2 和 R3 分 别 进行 路 由 引入 时 使 用 route-policy 工具 将 引入 的 路 由 设 
置 metric，R2 将 RIP 引入 进 OSPF 时 ， 将 10.1.34.0/24 网 段 metric 设置 为 10， 目 的 是 为 
了 让 R1 优先 选 R3 到 达 10.1.34.0/24 网 段 。 因为 R2 和 了 R3 引入 该 路 由 时 默认 metric 都 为 
1， 而 在 R2 上 修改 了 metric 值 以 后 ，R1 将 会 把 最 优 的 下 一 跳 为 R3 (metric=1) 的 路 由 
放 进 路 由 表 。 
而 在 R3 引入 路 由 时 将 10.1.24.0/24 网 段 的 metric 改 为 10， 目 的 是 让 R1 优先 选择 
R2 作为 下 一 跳 (metric=1) 到 达 10.1.24.0。 而 R2 和 R3 将 OSPF 引入 RIP 时 ,同样 采用 
修改 metric 的 方式 来 实现 ， 确 保 每 个 设备 走 最 优 路 由 。 
在 R2 和 R3 上 面 通 过 route-policy 工具 修改 路 由 的 metric 来 解决 次 优 路 径 。 
<R2>display current-configuration 
# 
acl number 2000 
rule 10 permit source 10.1.34.00 
acl number 2001 
rule 10 permit source 10.1.13.00 
# 
ospf 1 
import-route rip 1 route-policy R2 
area 0.0.0.0 、 
network 2.2.2.2 0.0.0.0 
network 10.1.12.2 0.0.0.0 
# 
ripl 
version 2 
network 10.0.0.0 
import-route ospf 1 route-policy O2R 
# 
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route-policy R20 permit node 10 
if-match acl 2000 
apply cost 10 
长 
route-policy R2O permit node 20 
四 
route-policy O2R permit node 10 
if-match acl 2001 
apply cost 3 
# 
route-policy O2R permit node 20 
<R3>display current-configuration 
# 
acl number 2000 
rule 10 permit source 10.1.24.00 
acl number 2001 
rule 10 permit source 10.1.12.00 
# 
ospf 1 
import-route rip 1 route-policy R20 
area 0.0.0.0 
network 3.3.3.3 0.0.0.0 
network 10.1.13.3 0.0.0.0 
二 
Tip 1 
Version 2 
network 10.0.0:0 
import-route ospf 1 route-policy O2R 
# 
route-policy R2O permit node 10 
if-match acl 2000 
apply cost 10 
route-policy R20 permit node 20 
# 
route-policy O2R permit node 10 
if-match acl 2001 
apply cost3 
打 
route-policy O2R permit node 20 
六 
5.4.1.3 ”以 议 优 先 级 〈(Preference ) 


任何 出 现在 路 由 表 里 面 的 路 由 ， 除 非 直 连 路 由 ， 都 会 由 cost 来 衡量 到 目标 网 络 的 距 
离 。 如 果 路 由 器 学 到 多 条 相同 路 由 ， 分 别 源 自 不 同 路 由 协议 ， 按 照 以 下 步骤 进行 比较 。 

1. 先 比 较 各 协议 的 外 部 优先 级 。 

2. 如 果 外 部 优先 级 一 致 ， 再 比较 内 部 优先 级 。 

3. 如 果 内 外 部 优先 级 都 一 样 ， 则 比较 多 条 路 由 的 cost。 

4. 如果 cost 一 致 ， 多 条 路 由 都 将 出 现在 路 由 表 中 ， 负 载 分 担 ， 否 则 只 放 入 cost 最 
小 的 路 由 。 

路 由 表 中 到 目的 地 的 路 由 , 不 同 的 路 由 协议 (包括 静态 路 由 ) 可 能 会 发 现 不 同 的 路 由 ， 
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但 这 些 路 由 并 不 都 是 最 优 的 。 事实 上 ， 在 某 一 时 刻 ， 到 茶 一 目的 地 的 当前 路 由 仅 能 由 唯一 
的 路 由 协议 来 决定 。 为 了 判断 最 优 路 由 ， 各 路 由 协议 (包括 静态 路 由 〉 都 被 赋予 了 一 个 优 
先 级 ， 当 存在 多 个 路 由 信息 源 时 ， 具 有 和 较 高 优先 级 〈 取 值 较 小 ) 的 路 由 协议 发 现 的 路 由 将 
成 为 最 优 路 由 ， 并 将 最 优 路 由 放 入 本 地 路 由 表 中 。 路 由 器 分 别 定义 了 外 部 优先 级 和 内 部 优 
先 级 ， 外 部 优先 级 〈 见 表 5-6 所 示 ) 是 指 用 户 可 以 手工 为 各 路 由 协议 配置 的 优先 级 。 


表 5-6 由 协议 外 部 优先 级 
DIRECT 
OSPF 
IS-IS 
STATIC 
RIP 
OSPF ASE 
OSPF NSSA 
iBGP 
eBGP 


YE 二 
WE 


Fg 





说 明 : 
数值 越 小 表示 路 由 的 可 信 度 越 高 ， 数 值 越 大 说 明 越 不 可 信 ， 路 由 器 优先 选择 数值 小 的 
路 由 。 

表 5-7 
DIRECT 

OSPF 
IS-IS level-1 15 
IS-IS level-2 18 
STATIC 60 
RIP 100 
OSPF ASE 150 
OSPF NSSA 150 
iBGP 200 
eBGP 20 








说 明 : 

选择 路 由 时 先 比 较 路 由 的 外 部 优先 级 ， 当 不 同 的 路 由 协议 配置 了 相同 的 优先 级 后 ， 系 
统 会 通过 内 部 优先 级 决定 哪个 路 由 协议 发 现 的 路 由 将 成 为 最 优 路 由 。 例如， 到 达 同 一 目 
的 地 100.1.1.0/24 有 两 条 路 由 可 供 选择 ， 一 条 是 静态 路 由 ， 另 一 条 是 OSPF 路 由 ， 且 这 两 
条 路 由 的 外 部 优先 级 都 被 配置 成 8。 这 时 路 由 器 系统 将 根据 表 5-7 所 示 的 内 部 优先 级 进行 
判断 。 因 为 OSPF 协议 的 内 部 优先 级 是 10， 高 于 静态 路 由 的 内 部 优先 级 60， 所 以 系统 选 
择 OSPF 协议 学 习 的 路 由 作为 最 优 路 由 。 注 : 路 由 协议 内 部 优先 级 不 能 被 人 工 修改 。 


调整 优先 级 的 命令 : 
preference { preference | route-policy route-policy-name } 
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说 明 : 
该 命令 直接 在 路 由 进程 下 配置 ， 如 preference 80， 则 将 该 协议 学 习 到 的 路 由 优先 级 全 
部 调整 为 80。 也 可 以 通过 调用 route-policy 工具 来 匹配 特定 的 路 由 ， 仅 对 特定 的 路 由 修改 
优先 级 ， 其 他 没有 被 匹配 的 路 由 采用 默认 值 。 


示例 1: 将 RIP 协议 中 路 由 条 目 10.1.1.0/24 的 优先 级 设置 为 80， 其 他 路 由 采用 默认 值 。 
ripl Ts | 
preference route-policy PRE 
# 
route-policy PRE permit node 10 
if-match ip-prefix TECH 
apply preference 80 


# 
ip ip-prefix TECH index 10 permit 10.1.1.0 24 


说 明 : 
使 用 前 级 列表 将 路 由 匹配 ， 通 过 route-policy 调用 前 级 列表 ， 并 设置 优先 级 为 80， 在 路 
由 进程 中 通过 preference 调用 route-policy。 


示例 2: 将 IS-IS 协议 中 的 路 由 条 目 172.16.1.0/24 的 优先 级 设置 为 20， 其 他 路 由 的 
优先 级 设置 为 30。 
isis 1 
preference 30 route-policy PRE 
.并 pe 
route-policy PRE permit node 10 
if-match acl 2000 
apply preference 20 


number 2000 
rule 5 permit source 172.16.1.00 
说 明 : 
通过 ACL 将 路 由 匹配 ， 通 过 route-policy 工具 调用 ACL 并 将 优先 级 设置 为 20， 在 IS-IS 
进程 中 应 用 preference 调用 route-policy， 并 且 同 时 设置 了 30。 那 么 通过 IS-IS 学 习 的 路 由 中 
除了 172.16.1.0 被 设置 为 了 20， 其 他 的 路 由 都 将 改 为 30。 


示例 3: 将 OSPF 协议 中 的 外 部 路 由 的 优先 级 设置 为 100。 


ospf 1 
preference ase 100 


说 明 : 

OSPF 有 域内 和 域外 路 由 优先 级 , 通过 preference 添加 参数 ase 来 调整 域外 路 由 优先 级 为 
100 (默认 150)， 如 果 不 携 带 ase 加 一 个 数值 如 preference 100， 则 调整 域内 路 由 优先 级 ( 默 
认为 10)。 在 OSPF 中 也 可 以 通过 route-policy 来 调整 特定 路 由 。 


示例 4: 将 BGP 协议 中 的 eBGP、iBGP、LocalBGP 路 由 优先 级 分 别 调整 为 100、 150、 
200。 
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bgp 1 
preference 100 150 200 
说 明 : 
BGP 协议 包含 三 种 优先 级 ， 分 别 是 eBGP、iBGP、LocalBGP， 均 为 255，preference 后 面 扒 
带 的 参数 依次 为 三 种 值 ， 修 改 了 其 默认 值 。 


思考 1: 如 下 表 所 示 ， 在 OSPF 中 修改 内 部 路 由 优先 级 为 100， 且 通过 route-policy 将 
所 有 路 由 优先 级 改 为 200, 请 问 此 时 路 由 表 中 的 内 部 路 由 和 外 部 路 由 的 优先 级 分 别 是 多 少 ? 


ospf 1 
preference route-policy PRE 100 
并 
route-policy PRE permit node 10 
apply preference 200 


分 析 : 如 果 在 路 由 进程 中 使 用 preference 工具 修改 OSPF 内 部 路 由 优先 级 ， 值 设置 
为 100， 且 同时 调用 了 route-policy 策略 工具 并 修改 路 由 优先 级 ， 那 么 该 设备 将 会 优先 使 
用 策略 当中 定义 的 优先 级 。 策 略 当 中 匹配 到 所 有 的 路 由 ， 最 终 路 由 表 中 所 有 OSPF 内 部 
路 由 优先 级 被 设置 为 200， 而 不 是 100。 由 于 没有 设置 外 部 优先 级 ， 因 此 为 默认 值 150。 
思考 2: 如 下 表 所 示 ， 在 OSPF 中 修改 外 部 路 由 优先 级 为 100， 且 通过 route-policy 将 
所 有 路 由 优先 级 改 为 200， 请 问 此 时 路 由 表 中 的 内 部 路 由 和 外 部 路 由 优先 级 分 别 是 多 少 ? 


acl number 2000 
rule 10 permit source 172.16.1.0 0 
并 
ospf 1 
preference ase route-policy PRE 100 
# 
route-policy PRE permit node 10 
if-match acl 2000 
apply preference 200 


分 研 : 

在 OSPF 进程 中 修改 了 外 部 路 由 优先 级 ， 值 为 100， 同 时 调用 了 route-policy， 且 将 其 中 
的 ACL 2000 中 匹配 的 路 由 172.16.1.0 的 路 由 优先 级 改 为 了 200。 最 终 路 由 表 中 所 有 OSPF 
外 部 路 由 中 除了 172.16.1.0 被 设置 为 200 以 外 ， 其 他 的 外 部 路 由 都 被 设置 为 100， 而 内 部 
路 由 优先 级 没有 修改 ， 因 此 为 默认 的 10。 


5.4.2 ”路 由 引入 的 问题 


路 由 引入 能 够 保证 多 种 协议 之 间 互 相 学 习 路 由 ， 但 复杂 的 网 络 中 会 出 现 多 种 路 由 协 
议 需要 相互 引入 的 问题 ， 任 何 协议 自身 都 有 相应 的 免 环 等 机 制 ， 但 协议 间 相 互 引 入 时 ， 
在 边界 设备 上 ， 仍 然 会 出 现 类 似 问 题 ， 因 此 需要 通过 一 系列 方法 来 解决 。 

。 解决 环 路 问题 : 可 以 使 用 多 种 办 法 ， 如 preference， 或 使 用 tag 过 滤 路 由 等 。 

。 解决 次 优 路 径 问 题 : 可 以 通过 调整 外 部 路 由 metric、preference 等 办 法 。 

如 图 5-19 所 示 ， 网 络 中 运行 两 种 路 由 协议 ，R1、R2 和 R3 是 自治 系统 域 边界 设备 ， 
并 且 做 了 双向 路 由 引入 《将 双方 的 路 由 互相 引入 进 自 身 的 路 由 进程 ), 但 是 由 于 各 自 的 优 
先 级 不 一 样 将 会 导致 不 同 的 问题 。 
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图 5-19 在 OSPF 中 引入 外 部 路 由 


5.4.2.1 到 向 路 由 引入 造成 的 次 优 路 径 问题 

如 图 5-20 所 示 , R1 将 路 由 10.0.0.0/24 网 段 引 入 进 OSPF, 由 于 OSPF 有 两 种 优先 级 ， 
从 外 部 引入 进 OSPF 的 路 由 优先 级 为 150, 而 R2 和 R3 又 将 OSPF 引入 进 IS-IS 中 。 路 由 
引入 存在 优先 顺序 ， 假 设 R3 优先 将 OSPF 引入 到 IS-IS 中 ，R2 从 IS-IS 和 OSPF 同时 学 
习 到 这 条 路 由 ， 那 么 R2 将 会 比较 路 由 优先 级 ， 最 终 会 选择 较 小 的 值 (15)， 因 此 R2 将 
会 沿 着 R4-R3-R1 的 路 径 转 发 ， 这 样 次 优 路 径 就 形成 了 。 


10.0.0.0/24 





图 5-20 引入 路 由 后 产生 的 次 优 路 径 


分 别 在 R2 和 R3 上 面 配置 双向 的 路 由 引入 : 


[R21isis 1 
[R2-isis-1]import-route ospf 1 
[R2-isis-1]quit 

[R2] ospf 1 

[R2-0spf-1 J]import-route isis 1 
[R3jisis 1 
[R3-isis-l]import-route ospf 1 
[R3-isis-1]quit 

[R3] ospf 1 
[R3-ospf-1limport-route isis 1 
查看 R2 的 路 由 表 : 
<R2>display ip routing-table 
Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 14 Routes : 14 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
10.0.0.0/24 IS-IS-L215 84 D 24.1.1.4 GigabitEthernet0/0/1 
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12.1.1.0/24 Direct 0 0 D 12.1.12 GigabitEthernet0/0/0 
12.1.1.2/32 Direct 0 0 D 127.0.0.1 GigabitEthernet0/0/0 
12.1.1.255/32 Direct 0 0 D 127.0.0.1 GigabitEthernet0/0/0 
13.1:1:0/24: .QSPE” 1I0 "2 D loikslad GigabitEthernet0/0/0 
15.1.1.0/24 IS-IS-L215 84 D 24.1.1.4 GigabitEthernet0/0/1 
24.1.1.0/24 Direct 0 0 D 24.1.1.2 GigabitEthernet0/0/1 
24.1.1.2/32 Direct 0 0 D 127.0.0.1 GigabitEthernet0/0/1 
24.1.1.255/32 Direct 0 0 D 127.0.0.1 GigabitEthernet0/0/1 
34.1.1.0/24 IS-IS-L215 20 D 24.1.1.4 GigabitEthermet0/0/] 
127.0.0.0/8 Direct 0 0 D 127.0.0.1 InLoopBack0 
127.0.0.1/32 Direct 0 0 D 127.0.0.1 InLoopBack0 
127.255,255.255/32 Direct 0 0 D 127.0.0.1 InLoopBack0 
255.255.255.255/32 Direct 0 0 127.0.0.1 InLoopBack0 


R2 选择 了 一 条 次 优 路 径 ， 由 于 i IS 的 路 由 优先 级 低 ， 将 IS-IS 学 习 到 的 路 由 放 入 
路 由 表 中 ， 这 样 R2 的 转发 路 径 就 是 R2-R4-R3-R1。 

解决 办 法 : 通过 修改 R2 的 路 由 优先 级 ， 有 两 种 方法 可 以 实现 。 第 一 ， 可 以 修改 R2 
的 OSPF 优先 级 ， 将 其 调整 得 更 小 〈 比 IS-IS 优先 级 更 小 ， 小 于 15)， 比 如 将 OSPF 的 优 
先 级 调整 为 4， 那 么 R2 将 会 选择 OSPF 去 往 10.0.0.0/24 网 段 。 第 二 ， 可 以 修改 R2 的 
IS-IS 优先 级 ， 将 其 调整 得 更 大 〈 比 OSPF 外 部 优先 级 更 大 ， 大 于 150)， 比 如 将 IS-IS 的 
优先 级 调整 为 160， 那 么 R2 同样 会 选择 OSPF 到 达 。 

在 R2 的 OSPF 进程 中 使 用 preference 命令 调整 OSPF 外 部 路 由 的 优先 级 。 


[R2] ospf 1 

[R2-0spf-1 Jpreference ase route-policy PREFERENCE 
[R2-0spf-1] quit 

[R2]route-policy PREFERENCE permit node 10 
[R2-route-policy]if-match acl 2000 
[R2-route-policy]Japply preference 14 
[R2-route-policy]quit 

[R2]acl 2000 

[R2-acl-basic-2000]rule 10 permit source 10.0.0.00 


由 于 10.0.0.0/24 是 外 部 路 由 ， 因 此 使 用 preference 命令 时 后 面 添加 ase 参数 ， 用 于 
调整 OSPF 的 外 部 路 由 的 优先 级 ， 如 不 携带 则 调整 内 部 优先 级 。 使 用 route-policy 参数 用 
于 调用 策略 ， 通 过 ACL 匹配 到 10.0.0.0/24， 将 其 外 部 优先 级 设置 为 14。 

查看 R2 的 路 由 表 : 

[R2]display ip routing-table 

Route Flags: R-relay, D-download to fib 

Routing Tables: Public 

Destinations : 14 Routes : 14 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
10.0.0.0/24 © ASE 14 1 2kl GigabitEthernet0/0/0 
12.1.1.0/24 Direct 0 0 L212 GigabitEthernet0/0/0 
12.1. D232 "Direct On WO 127.0.0.1 GigabitEthermet0/0/0 
12.1.1.255/32 Direct 0 0 127.0.0.1 GigabitEthernet0/0/0 
13.1:1:0/24 ‘QSPF 10 2 12:1.1:] GigabitEthernet0/0/0 
15.1.1.0/24 IS-IS-L215 84 24.1.1.4 GigabitEthernet0/0/1 
24.1.1.0/24 Direct 0 0 24.1.1.2 GigabitEthernet0/0/1 
24.1.1.2/32 Direct 0 0 127.0.0.1 GigabitEthernet0/0/1 
24.1.1.255/32 Direct 0 0 127.0.0.1 GigabitEthernet0/0/1 
34.1.1.0/24 IS-IS-L215 20 24.1.1.4 GigabitEthernet0/0/1 
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127.0.0.0/8 Direct 0 0 D1270.0.1 InLoopBack0 
127.0.0.1/32 Direct 0 0 Dy 127.00.1 InLoopBack0 
127.255.255.255/32 Direct 0 0 B1270.0:1 InLoopBack0 
255,255.255.255/32 Direct 0 0 D127.00.1 InLoopBack0 
调整 OSPF 的 外 部 路 由 优先 级 为 14， 由 于 比 IS-IS 的 优先 级 值 更 低 ， 因 此 OSPF 的 


路 由 将 会 出 现在 路 由 表 中 。 

5.4.2.2 ”双向 路 由 引入 造成 的 环 路 问题 

场景 描述 及 问题 分 析 : 如 图 5-21 所 示 , 当 R1 到 10.0.0.0/24 的 网 段 引 入 进 OSPF， 
R2 和 R3 做 双向 路 由 引入 ，R3 首先 将 OSPF 引入 进 了 IS-IS，R2 从 OSPF 和 IS-IS 都 
学 习 到 该 路 由 , 由 于 优先 级 的 问题 , IS-IS 学 习 的 路 由 出 现在 路 由 表 中 。 而 R2 从 OSPF 
学 习 的 10.0.0.0/24 路 由 引入 IS-IS 时 会 失败 (因为 路 由 引入 只 会 将 路 由 表 中 的 路 由 引 
入 进来 ， 而 此 时 路 由 表 中 只 有 IS-IS 的 路 由 )， 因 此 从 IS-IS 学 习 到 的 路 由 10.0.0.0/24 
又 被 重新 引入 进 OSPF 中 。 此 时 该 条 路 由 可 能 发 生 故 障 了 ， 从 而 使 R1 和 R3 又 通过 
R2 学 习 到 该 路 由 ， 当 R2 访问 10.0.0.0/24 网 段 时 ,流量 会 经 过 R4-R3-R1-R2, 最 终 形 
成 环 路 。 






引入 到 OSPF 


图 5-21 引入 路 由 后 产生 的 环 路 问题 


说 明 : 

除了 上 面 两 者 (OSPF 外 部 引入 进 I5-IS 形成 环 路 ) ， 另 外 OSPF 外 部 一 RIP、OSPF 外 
部 一 OSPF、RIP 一 |5-IS 也 会 存在 环 路 问题 ， 综 其 原因 : 如 果 优 先 级 大 的 路 由 协议 向 优先 级 
小 的 路 由 协议 引入 路 由 时 会 引发 环 路 。 


解决 办 法 : 使 用 路 由 标记 Tag 来 解决 环 路 的 问题 ， 具 体 的 思路 如 下 。 

1. 顺 时 针 的 路 由 引入 : R2 将 OSPF 引入 进 IS-IS 时 将 路 由 打上 tag 100， 此 时 会 
将 OSPF 所 有 的 路 由 引入 进 IS-IS 的 路 由 都 标记 为 100。 由 于 R3 会 从 R4 学 到 IS-IS 
的 路 由 ， 那 么 R3 将 IS-IS 路 由 引入 OSPF 时 ， 会 将 源 自 OSPF 的 路 由 又 重新 引入 进 
OSPF， 这 样 会 导致 环 路 隐患 ， 那 么 这 时 可 以 在 R3 引入 时 过 滤 掉 tag 100， 这 样 就 可 
以 避免 环 路 。 同时， 为 了 防止 IS-IS 路 由 的 环 路 ， 在 R3 将 IS-IS 引入 OSPF 的 时 候 使 
用 另外 一 个 tag 200 来 标识 IS-IS 路 由 ， 接 着 在 R2 上 面 将 OSPF 引入 进 IS-IS 的 时 候 
过 滤 掉 tag 200。 

2. 逆 时 针 的 路 由 引入 : R2 将 IS-IS 引入 进 OSPF 时 将 路 由 打上 tag 300， 那么 R3 再 
将 OSPF 引入 IS-IS 时 将 tag 300 过 滤 掉 ,同时 R3 将 OSPF 引入 IS-IS 时 打上 tag 400, 而 
R2 将 IS-IS 引入 进 OSPF 时 过 滤 掉 tag 400。 
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isis 1 


isis 1 
import-route ospf 1 route-policy O2I import-route ospf 1 route-policy O2I 
# 四 
ospf 1 ospf 1 
import-route isis 1 route-policy I2O import-route isis 1 route-policy IO 
国 于 
route-policy O2I deny node 5 route-policy IO deny node 5 
if-match tag 200 if-match tag 100 
route-policy O2I permit node 10 route-policy I2O permit node 10 
apply tag 100 apply tag 200 
# # 
route-policy I2O deny node 5 route-policy O21 deny node 5 
if-match tag 400 if-match tag 300 
route-policy I2O permit node 10 route-policy O2I permit node 10 


apply tag 300 apply tag 400 


说 明 : 
使 用 路 由 标记 是 一 种 非常 有 效 的 解决 环 路 的 方式 ， 如 果 是 双 点 双向 的 路 由 引入 ， 需 要 
注意 顺 时 针 和 递 时 针 方 向 都 要 考虑 。 


5.5 ”综合 案例 : 多 协议 之 间 的 路 由 引入 


场景 描述 : 如 图 5-22 所 示 ， 该 拓扑 图 存在 多 个 路 由 协议 ， 在 RI、R4、R5、R6 都 
做 了 双向 路 由 引入 ， 在 R3 和 R7 做 了 单 向 的 路 由 引入 ， 分 别 将 10.1.1.0/24 和 20.1.1.0/24 
网 段 引 入 进 OSPF 中 。 

1， 问题 分 析 : R4 和 R5 去 往 R3 的 10.1.1.0/24 网 段 有 次 优 路 径 ， 出 现 该 问题 的 主要 
原因 是 路 由 优先 级 ， 由 于 R3 引入 进来 的 路 由 为 外 部 优先 级 150， 而 R4 和 R5 都 做 了 双 
向 的 路 由 引入 ， 分 别 都 会 从 IS-IS 中 重新 学 习 到 该 路 由 ， 而 IS-IS 只 有 一 种 路 由 优先 级 为 
15, 那么 此 时 R4 或 者 R5 将 会 有 一 台 设 备 出 现 次 优 路 径 , 这 取决 于 路 由 引入 的 先后 问题 。 
比如 R4 将 OSPF 路 由 首先 引入 进 IS-IS 中 ，R5 从 IS-IS 学 到 了 该 路 由 ， 那 么 RS 将 会 选 
择 把 IS-IS 学 到 的 路 由 放 进 路 由 表 ，R5 就 会 出 现 次 优 路 径 。 反 之 ， 如 果 R5 先 将 OSPF 
引入 进 IS-IS， 那 么 R4 将 会 把 IS-IS 学 的 路 由 放 进 路 由 表 。 

解决 思路 : 由 于 从 两 种 不 同 协 议 学 到 的 相同 路 由 会 比较 协议 的 优先 级 ， 选 择 值 小 的 
放 进 路 由 表 ， 因 此 R4 和 R5 最 终 选 了 IS-IS 学 习 的 路 由 ， 这 样 次 优 路 径 就 产生 了 。 而 路 
由 协议 提供 了 一 种 解决 办 法 ， 使 用 preference 工具 来 调整 路 由 优先 级 。 

通过 preference 将 路 由 协议 的 默认 优先 级 做 出 适当 的 修改 ， 从 而 影响 路 由 的 选 路 。 
比如 将 R4 和 Rs 的 IS-IS 的 优先 级 15 改 成 比 OSPF 外 部 的 优先 级 150 更 大 (或 者 在 OSPF 
中 将 优先 级 改 得 比 15 小 )， 那 么 R4 和 R5 比较 两 者 协议 优先 级 时 ， 将 会 把 OSPF 学 到 的 
路 由 放 进 路 由 表 ， 这 样 就 可 以 解决 R4 和 R5 次 优 路 径 的 问题 。 
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图 5-22 多 路 由 协议 之 间 路 由 引入 


起 初 R4 和 R5 只 有 一 台 设 备 会 出 现 次 优 问 题 ， 这 要 看 两 台 设 备 的 引入 优先 顺序 ， 比 
如 R4 首先 将 OSPF 引入 进 IS-IS， 那 么 R5 此 时 从 IS-IS 学 到 了 该 路 由 ， 并 且 将 IS-IS 学 
到 的 路 由 放 进 路 由 表 。 而 R5 将 OSPF 引入 IS-IS 时 就 会 失败 ， 因 为 R5 的 路 由 表 中 该 路 
由 是 IS-IS 学 习 到 的 ， 因 此 R5 会 首先 出 现 次 优 问 题 。 而 R4 则 还 是 选择 OSPF 到 达 目 的 
地 ， 所 以 首先 调整 出 现 次 优 的 那 台 设备 〈R5 )。 

修改 以 后 R5 选择 了 OSPF， 那么 此 时 R5 将 OSPF 学 到 的 路 由 放 进 路 由 表 ， 这 时 R5 
就 能 够 将 OSPF 引入 到 IS-IS， 那 么 R4 将 会 从 IS-IS 学 到 10.1.1.0/24 路 由 ， 因 此 R4 也 会 
产生 次 优 路 径 ， 用 同样 的 方法 将 R4 的 优先 级 也 做 出 修改 。 

但 注意 调整 优先 级 时 可 以 在 preference 后 面 调用 route-policy 工具 来 精确 匹配 出 
路 由 再 做 修改 ， 如 果 没 有 精确 匹配 路 由 ， 则 所 有 的 路 由 都 会 被 修改 ， 从 而 影响 其 他 路 
由 的 选 路 。 

2， 问题 分 析 : R4 和 R5 的 环 回 接口 存在 次 优 路 径 ; 由 于 R4 与 R5 的 环 回 接口 既 通 
告 进 了 OSPF， 也 通告 进 了 IS-IS， 那 么 R4 和 R5 去 往 各 自 的 环 回 接口 是 经 过 OSPF 到 达 
的 , 也 是 由 于 优先 级 的 问题 ,OSPF 的 内 部 优先 级 10 优 于 IS-IS 优先 级 15。 但 是 在 OSPF 
域 中 都 是 PPP 的 低速 链 路 ， 如 果 选 择 OSPF 到 达 ，R4 到 Rs 没有 直接 经 过 IS-IS 的 高 速 
王 兆 链 路 ， 而 选择 了 两 条 低速 链 路 ， 转 发 路 径 为 : R4-R3-R5。 

解决 思路 : 该 问题 类 似 于 问题 1， 也 是 由 路 由 优先 级 造成 的 ， 在 R4 和 R5 的 OSPF 
进程 中 使 用 filter-policy 工具 将 两 台 设 备 的 环 回 口 路 由 进行 过 滤 , 阻止 该 环 回 口 路 由 通过 
OSPF 学 到 ， 那 么 R4 和 R5 将 会 优先 选择 IS-IS 到 达 对 方 的 环 回 口 。 

3. 问题 分 析 : R2 去 往 OSPF 区 域 0 和 区 域 1 的 路 由 将 会 负载 均衡 ， 也 会 存在 次 优 
路 径 ，R1 和 R6 都 将 OSPF 引入 进 RIP 中 ， 默 认 引入 进来 的 路 由 cost 值 均 为 1。 比 如 R2 
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去 往 OSPF 区 域 0 和 区 域 1 的 网 段 将 会 从 Rl 和 R6 同时 到 达 , 但 是 R2 通过 R6 访问 OSPF 
区 域 0 的 网 络 就 是 次 优 路 径 ， 而 通过 R1 访问 OSPF 区 域 0 也 是 次 优 路 径 ， 需 要 进行 调 
整 ， 使 得 R2 只 从 R6 访问 OSPF 区 域 1， 只 从 了 1 访问 OSPF 区 域 0。 

解决 思路 ;该 问题 可 以 通过 以 下 两 种 方式 来 解决 。 

方法 1: 可 以 在 Rl 和 R6 设备 上 将 OSPF 引入 RIP 时 通过 调用 filter-policy 工具 来 控 
制 路 由 ， 比 如 R1 将 OSPF 区 域 1 的 路 由 引入 到 RIP 时 过 滤 挤 ，R6 将 OSPF 区 域 0 的 路 
由 引入 到 RIP 时 过 滤 掉 。 确 保 R2 到 达 目 标 时 走 最 优 的 路 径 ， 但 是 这 种 方式 的 缺点 是 不 
能 确保 元 余 路 径 ， 一 旦 一 边 链 路 失效 以 后 就 不 能 够 提供 备份 路 径 到 达 。 

方法 2: 通过 修改 metric 值 ， 在 R1 将 OSPF 引入 到 RIP 的 时 候 调 用 route-policy 工 
具 将 OSPF 区 域 1 的 路 由 匹配 到 (包括 20.1.1.0/24 网 段 )， 将 cost 值 调 整 得 更 大 (比如 
调整 为 3， 而 R6 引入 进 RIP 的 值 为 1 ), 这 样 R2 的 路 由 表 中 只 有 一 条 路 径 去 往 OSPF 区 
域 0， 而 且 也 能 保证 最 优 路 径 失效 ， 也 有 替代 路 径 能 够 访问 。R2 去 往 OSPF 的 区 域 1 的 
路 由 要 经 过 R6 访问 ， 此 时 在 R6 将 OSPF 引入 进 RIP 时 调用 route-policy 工具 将 OSPF 
区 域 0 的 路 由 匹配 到 , 同样 将 cost 值 调整 得 更 大 , 那么 R2 就 会 优先 选择 从 R6 去 往 OSPF 
区 域 1 的 网 段 。 

因此 在 相同 的 路 由 协议 中 学 到 的 多 条 路 由 可 以 利用 工具 来 修改 metric 值 影响 选 路 ， 
不 仅 能 够 解决 次 优 路 径 ， 也 可 以 保证 元 余 路 径 。 另 外 在 RIP 协议 中 还 可 以 使 用 rip 
metricout/metricin 工具 来 实现 , 在 接口 下 调用 该 命令 来 调整 cost 值 也 可 以 达到 相同 效果 。 

4. 问题 分 析 : RS 到达 OSPF 区 域 1 的 路 由 将 会 选择 从 R3 到 达 ， 这 是 一 条 次 优 路 
径 。 由 于 R5 与 R3 在 OSPF 区 域 0 中 ， 从 OSPF 学 习 到 一 条 内 部 路 由 要 比 IS-IS 更 优 ， 
因此 将 会 沿 着 R5-R3-R4 路 径 转 发 。 

解决 思路 : 也 是 由 于 路 由 协议 优先 级 的 问题 ,在 RS 上 通过 preference 工具 来 修改 路 
由 的 优先 级 使 其 从 R4 转发 ， 只 要 将 OSPF 的 优先 级 改 得 比 15 更 大 即 可 ， 需 要 注意 的 是 
将 路 由 精确 地 匹配 后 再 做 修改 。 

5. 问题 分 析 : R2 去 往 20.1.1.0/24 网 段 将 会 存在 环 路 问题 ， 该 路 由 被 引入 进 OSPF 
中 ， 由 R4 将 路 由 执行 7 转 5 通告 进 OSPF 区 域 0， 又 被 R1 引入 进 RIP 中 。 此 时 R2 又 
将 该 路 由 传递 给 R6, 由 于 R6 从 RIP 协议 重新 学 习 到 该 路 由 , 且 RIP 的 优先 级 要 比 OSPF 
的 外 部 优先 级 要 更 优 ， 此 时 R6 要 发 送 数 据 包 到 20.1.1.0/24 网 段 ， 那 么 将 会 选择 R2。 而 
R2 转发 给 R1， 然 后 将 会 沿 着 R1-R3-R4-R6 的 路 径 转 发 数据 包 ， 最 终 数 据 包 又 重新 回 到 
R6， 形 成 环 路 。 

解决 思路 : 为 了 保证 R6 到 达 20.1.1.0/24 网 段 直 接 经 过 R7 访问 , 可 以 通过 preference 
工具 修改 优先 级 。 

(1) 调整 优先 级 : 在 OSPF 进程 中 将 该 网 段 的 优先 级 〈150) 改 得 比 RIP《〈100) 更 
小 , 让 OSPF 学 习 的 路 由 出 现在 R6 的 路 由 表 中 。 这 样 既 可 以 避免 20.1.1.0 走 一 条 次 优 路 
径 ， 也 可 以 避免 产生 环 路 的 隐患 。 不 过 由 于 R1 和 R6 都 做 了 双向 引入 ，RIP 和 OSPF 之 
间 将 会 有 可 能 出 现 环 路 (路 径 为 : R1-R3-R4-R6-R2-R1)。 为 了 避免 这 个 大 环 路 ， 可 以 采 
用 路 由 标记 tag 方式 来 避免 。 

(2) 使 用 tag 方式 避免 环 路 : 通过 引入 路 由 时 调用 route-policy 工具 来 调整 。 

。 ” 顺 时 针 方 向 : 在 Rl1 将 RIP 引入 OSPF 时 打上 tag 100，R6 将 OSPF 引入 进 RIP 
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时 过 滤 掉 tag 100, 同时 打上 tag 200, 而 在 R1 将 RIP 引入 到 OSPF 时 过 滤 掉 tag 
200。 
。 道 时 针 方 向 : 在 Rl 将 OSPF 引入 到 RIP 时 打上 tag 300， 在 R6 将 RIP 引入 到 
OSPF 时 过 滤 tag 300 并 同时 打上 tag 400， 最 后 在 R1 将 OSPF 引入 进 RIP 时 过 
滤 掉 tag 400。 

6. 问题 分 析 : 在 OSPF 区 域 1 中 将 会 产生 一 条 默认 路 由 的 环 路 问题 ， 由 于 R4 是 一 
个 ASBR 路 由 器 ,同时 也 是 一 个 ABR 路 由 器 ，OSPF 区 域 1 为 NSSA 区 域 产生 一 条 默认 
路 由 ， 这 条 默认 路 由 被 R6 学 习 到 然后 引入 到 RIP 中 , 而 Rl1 将 RIP 引入 到 OSPF 中 时 也 
将 该 默认 路 由 引入 进 了 OSPF， 该 默认 路 由 经 过 R5 再 次 引入 到 IS-IS， 最 终 R4 从 IS-IS 
中 学 到 该 路 由 。 而 R4 访问 一 条 路 由 表 中 不 存在 的 细 路 由 时 可 能 会 匹配 到 该 默认 路 由 ， 
这 时 数据 包 将 会 沿 着 R4-R5-R3-R1-R2-R6-R4 转发 数据 包 ， 从 而 形成 环 路 。 

解决 思路 : 由 于 该 默认 路 由 是 为 NSSA 区 域 产生 的 ， 用 于 到 达 OSPF 外 部 路 由 ， 默 
认 路 由 只 需要 出 现在 NSSA 区 域 , 因此 解决 由 该 条 默认 导致 的 环 路 问题 , 可 以 通过 在 R6 
上 面 将 OSPF 引入 到 RIP 时 过 滤 掉 这 条 默认 路 由 。 

总 结 : 在 复杂 的 网 络 环境 中 如 果 做 路 由 引入 将 会 导致 路 由 的 环 路 和 次 优 问题 ， 尤 其 
跨越 多 个 协议 。 这 样 会 直接 影响 网 络 的 质量 ， 数 据 包 有 可 能 选择 一 条 低速 的 链 路 或 者 选 
择 一 条 次 优 的 路 径 转发 ， 最 严重 的 问题 就 是 路 由 环 路 ， 这 里 就 需要 网 络 管理 员 对 网 络 进 
行 优化 。 本 章 为 大 家 介绍 了 路 由 策略 工具 及 控制 方法 ， 但 其 实 最 重要 的 是 优化 的 思路 ， 
因为 每 个 网 管 人 员 使 用 的 方法 和 工具 是 不 一 样 的 ， 这 就 取决 于 网 管 人 员 对 网 络 拓 扑 的 整 
体 分 析 和 把 握 。 比如 修改 一 条 路 径 有 多 种 方法 ， 但 是 必然 会 有 最 适合 的 一 种 ， 并 且 在 优 
化 网 络 的 时 候 需 要 注意 考虑 元 余 路 径 、 主 备 切 换 等 。 


5.6 思考 题 


1. ACL 和 ip-prefix 有 哪些 区 别 ? ip-prefix 能 否 过 滤 数 据 包 ? 

2. 使 用 一 条 ACL 匹配 出 10.1.129.0/24、 10.1.131.0/24、10.1.133.0/25、10.1.145.0/26、 
10.1.147.0/26、10.1.149.0/25 路 由 条 目 。 

3. filter-policy 工具 在 OSPF 中 使 用 时 有 哪些 作用 ? 

4. 使 用 一 条 前 级 列表 匹配 出 172.16.17.0/24、172.16.18.0/25、172.16.19.0/26 三 条 路 由 。 

5. 使 用 默认 路 由 和 聚合 路 由 时 需要 额外 注意 什么 ? 
.filter-policy export 和 import-route route-policy 这 两 种 过 滤 路 由 的 方式 有 什么 不 同 ? 
.如 何 使 用 前 级 列表 写 出 A/B/C 类 私有 地 址 ? 
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BGP ( Border Gateway Protocol ) 用 于 在 AS 之 间 传 递 海 量 的 路 由 信息 ， 它 为 路 由 定义 了 
多 种 属性 ， 并 提供 了 灵活 的 路 由 选 路 规则 和 丰富 的 路 由 策略 。BGP 主要 用 在 运营 商 网 络 / 
大 型 企业 或 互联 网 接 入 等 场景 中 。 本 章 对 BGP 属性 及 选 路 规则 详细 阐述 ， 并 结合 实例 对 
BGP 的 路 由 控制 及 大 型 网 络 的 部 署 加 以 阐述 。 


本 章 包含 以 下 内 容 : 


© BGP 协议 基础 

© BGP 路 径 属 性 

© BGP 的 策略 控制 工具 

© BGP 的 案例 研究 

© BGP 在 大 型 网 络 中 的 应 用 a 
© BGP 的 特性 “3 
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6.1 BGP 基础 


6.1.1 BGP 概述 


BGP (Border Gateway Protocol) 边界 网 关 协 议 , 是 一 种 在 自治 系统 AS (Autonomous 
System) 之 间 传 递 并 选择 最 佳 路 由 的 高 级 矢量 路 由 协议 。 早 期 发 布 的 三 个 版 本 分 别 是 
BGP-1 (RFC1105)、BGP-2 (RFC1163) 和 BGP-3 (RFC1267)，1994 年 开始 使 用 BGP-4 
(RFC1771)，2006 年 之 后 单 播 IPv4 网 络 使 用 的 版 本 是 BGP-4 (RFC4271)，BGP 的 当前 
版 本 是 BGP-4 (RFC4271)。 

BGP 能 够 进行 路 由 优选 ， 避 免 路 由 环 路 ， 能 更 高 效率 地 传递 路 由 和 维护 大 量 的 路 由 
信息 。 

虽然 BGP 用 于 在 AS 之 间 传 递 路 由 信息 ， 但 并 不 是 所 有 AS 之 间 传 递 路 由 信息 都 需 
要 运行 BGP。 比 如 在 数据 中 心 上 行 连 入 Internet 的 出 口上 , 为 了 避免 ntemet 海量 路 由 对 
数据 中 心 内 部 网 络 的 影响 ， 设 备 采 用 静态 路 由 代替 BGP 与 外 部 网 络 通信 。 

BGP 从 多 方面 保证 了 网 络 的 安全 性 、 灵 活性 、 稳 定性 、 可 靠 性 和 高 效 性 。 

BGP 采用 认证 和 GTSM 的 方式 ， 保 证 了 网 络 的 安全 性 。 

BGP 提供 了 丰富 的 路 由 策略 ， 能 够 灵活 地 进行 路 由 选 路 ， 并 且 能 指导 邻居 按 策略 发 
布 路 由 。 

BGP 提供 了 路 由 聚合 和 路 由 衰减 功能 ， 用 于 防止 路 由 振荡 ， 有 效 提高 了 网 络 的 稳定 性 。 

BGP 使 用 TCP 作为 其 传输 层 协 议 (端口 号 为 179), 并 支持 BGP 与 BFD 联动 、BGP 
Tracking 和 BGP GR， 提 高 了 网 络 的 可 靠 性 。 

在 邻居 数目 多 、 路 由 量 大 且 大 部 分 邻居 具有 相同 出 口 策略 的 场景 下 ，BGP 使 用 按 组 
打包 技术 极 大 地 提高 了 BGP 打包 发 包 性 能 。 


6.1.2 ”路 径 矢 量 路 由 协议 


BGP 是 一 种 路 径 矢 量 协议 ， 将 AS 作为 一 个 节点 来 计算 ， 因 此 每 一 个 节点 都 依靠 下 
游 邻 居 来 将 它 的 路 由 表 中 的 路 由 传递 下 去 ， 节 点 在 路 由 的 基础 上 进行 路 由 计算 并 且 将 结 
果 传 递 给 上 游 邻 居 。BGP 到 它 每 一 个 运行 BGP 的 对 等 体 都 形成 一 个 独特 的 、 基 于 单 播 
的 连接 ， 为 了 提供 对 等 体 连 接 的 可 靠 性 ，BGP 使 用 TCP 端口 号 179) 作为 底层 的 传输 
机 制 。 不 同 的 是 IGP 协议 以 一 个 路 由 器 作为 一 个 节点 , 而 BGP 协议 以 一 个 AS 作为 节点 ， 
BGP 使 用 的 是 一 个 AS 的 列表 ， 数 据 包 经 过 这 些 AS 才能 够 到 达 目 的 ， 因 为 这 些 列表 中 
记录 了 数据 包 所 经 过 的 路 径 ， 因 此 将 BGP 称 为 路 径 向 量 路 由 协议 。 与 BGP 路 由 相关 的 
AS 号 列表 被 称 为 AS PATH。 前面 讲 到 EGP 协议 无 法 解决 环 路 问题 ， 而 BGP 可 以 通过 
AS_PATH 属性 来 检测 环 路 ， 如 果 路 由 器 中 收 到 一 个 更 新 消息 中 存在 本 地 的 AS 号 ， 就 说 
明 存 在 环 路 。 

如 图 6-1 所 示 ， 有 两 家 运营 商 ISP-A 和 ISP-B， 分 别 工作 在 AS 100 和 AS 200 中 ， 
三 个 客户 AS 分 别 为 AS 300、AS 400、AS 500， 每 个 AS 之 内 运行 BGP，AS 之 间 运 行 
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eBGP。AS 300 通告 了 一 条 网 段 100.1.1.0/24， 该 路 由 通过 eBGP 传递 到 AS 100， 并 且 该 路 
由 将 会 携带 AS 号 300 记录 在 AS_PATH 列表 中 。 在 AS 100 内 部 传递 给 iBGP 邻居 时 ，AS 
号 100 不 会 添加 在 AS_PATH 列表 中 ， 当 传递 给 eBGP 邻居 时 才 会 携带 。 当 路 由 传递 到 AS 
200，AS_PATH 的 路 径 为 300 100。 该 路 由 也 通过 从 AS 200 传递 到 AS 400， 将 200 的 AS 
号 添加 进 AS_PATH 列表 ， 如 果 AS 400 将 路 由 重新 传递 到 AS 100， 那 么 该 路 由 将 会 导致 
环 路 。 而 BGP 是 一 种 路 径 矢量 的 协议 ， 传 递 路 由 时 能 够 通过 AS_PATH 来 防止 环 路 ， 当 收 
到 的 路 由 在 AS_PATH 列表 中 包含 自身 的 AS 号 时 将 会 直接 丢弃 掉 ， 避 免 路 由 环 路 。 


NLRI: 100.1.1.0/24 300 NLRI: 100.1.1.0/24 100 300 


图 Customer 3 


AS 300 Multi-homed 
NLRI: 100.1.1.0/24 





图 6-1 BGP 组 网 图 


6.1.3 ”BGP 与 IGP 协议 对 比 


在 网 络 当 中 有 很 多 种 路 由 协议 ， 比 如 RIP、OSPF、IS-IS， 这 些 都 具有 通告 网 络 可 达 
性 信息 的 作用 , 不 同 的 是 BGP 工作 在 大 型 的 网 络 环境 , 是 在 AS 之 间 运 行 的 协议 ; 而 IGP 
是 工作 在 AS 之 内 的 协议 ， 适 合 于 企业 内 部 的 部 署 。IGP 与 BGP 具有 各 自 不 同 的 特点 ， 
仅 使 用 IGP 或 者 BGP 并 不 能 满足 不 同 用 户 的 需求 ， 具 体 的 特点 体现 在 如 下 几 个 方面 。 

IGP 协议 具有 的 特点 : 

。 AS 之 内 使 用 的 协议 ， 着 眼 点 在 于 发 现 和 计算 路 由 。 

e 路 由 收敛 相对 较 迅 速 ， 一 般 工 作 在 直 连 邻居 间 。 

。 单一 的 度量 计算 方法 。 

。 路 由 选择 实施 复杂 。 

。 ”适用 于 中 小 型 企业 网 络 。 

BGP 协议 具有 的 特点 : 

。 BGP 是 一 种 外 部 网 关 协 议 (EGP)， 与 OSPF、RIP 等 内 部 网 关 协 议 (IGP) 不 
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同 , 其 着 眼 点 不 在 于 发 现 和 计算 路 由 , 而 在 于 控制 路 由 的 传播 和 选择 最 佳 路 由 。 
。 ”BGP 可 以 工作 在 非 直 连 邻居 之 间 ， 使 用 TCP 作为 其 传输 层 协议 〈 端 口号 179)， 
提高 了 协议 的 可 靠 性 。 
。 ”BGP 支持 无 类 别 域 间 路 由 CIDR (Classless Inter-Domain Routing ) 。 
。 路 由 更 新 时 ，BGP 只 发 送 更 新 的 路 由 ， 大 大 减少 了 BGP 传播 路 由 所 占用 的 带 
宽 ， 适 用 于 在 Internet 上 传播 大 量 的 路 由 信息 。 
BGP 路 由 通过 携带 路 径 信息 彻底 解决 路 由 环 路 问题 。 
BGP 提供 了 丰富 的 路 由 策略 ， 能 够 对 路 由 实现 灵活 的 过 滤 和 选择 。 
BGP 易于 扩展 ， 能 够 适应 网 络 新 技术 的 发 展 。 
适用 于 大 型 、 超 大 型 运营 商 网 络 。 


6.1.4 BGP 接 入 


事实 上 并 不 是 所 有 的 网 络 都 需要 使 用 BGP， 在 一 个 单一 的 企业 网 内 ， 通 常 使 用 IGP 
协议 做 路 由 策略 就 足够 了 ， 因 为 IGP 具有 收敛 速度 快 ， 部 署 简单 的 特点 。 但 是 如 果 需 要 
跨 运 营 商 在 不 同 的 自治 系统 之 间 传 递 路 由 时 ， 就 必须 用 到 BGP 了 。 使 用 BGP 大 部 分 都 
设计 Internet 的 连接 ， 在 用 户 与 ISP 之 间或 者 在 ISP 与 ISP 之 间 ， 但 即使 是 自治 系统 之 间 ， 
BGP 也 不 是 必须 要 使 用 的 。 例 如 以 下 几 种 场景 无 需 使 用 BGP。 

1. 单 宿主 自治 系统 。 用 户 和 ISP 之 间 只 有 一 条 线 连接 ， 在 这 种 场景 下 面 ，BGP 或 
者 IGP 都 是 没有 必要 的 ， 当 链 路 出 现 故障 时 ， 不 需要 路 由 协议 来 选 路 ， 只 需要 一 条 缺 省 
路 由 就 可 以 ， 并 把 缺 省 路 由 通告 到 AS 内 其 他 路 由 器 。 如 图 6-2 所 示 。 

2. 多 宿主 到 单一 的 自治 系统 。 用 户 和 ISP 之 间 有 多 条 链 路 ， 多 宿主 到 一 个 ISP 典型 
的 做 法 是 使 用 一 条 链 路 作为 主 用 链 路 ， 另 外 一 条 链 路 作为 备用 链 路 。 此 时 也 不 需要 运行 
BGP， 只 需要 将 备份 链 路 的 路 由 优先 级 设置 较 高 ， 只 有 当主 链 路 失效 以 后 才 使 用 备份 链 
路 。 如 图 6-3 所 示 。 





图 6-2 单 宿主 自治 系统 图 6-3 多 宿主 自治 系统 
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6.1.5 ”BGP 邻居 建立 


BGP 按照 运行 方式 分 为 eBGP (External BGP) 和 iBGP (Internal BGP) 邻居 关系 。 

。 eBGP: 运行 于 不 同 AS 之 间 的 BGP 称 为 eBGP。 为 了 防止 AS 间 产 生 环 路 ， 当 
BGP 设备 接收 eBGP 对 等 体 发 送 的 路 由 时 ， 会 将 带 有 本 地 AS 号 的 路 由 丢弃 。 

。 iBGP: 运行 在 相同 的 AS 之 内 的 BGP 称 为 BGP。 为 了 防止 AS 内 产生 环 路 ， 
在 AS 内 需要 保持 全 连接 的 iBGP 邻居 。 

BGP 的 路 由 器 标识 ( Router_ID ) 

BGP 的 Router ID 是 一 个 用 于 标识 BGP 设备 的 32 位 的 值 ,通常 是 IPv4 地 址 的 形式 ， 
在 BGP 会 话 建立 时 发 送 的 Open 报 文中 携带 。 对 等 体 之 间 建 立 BGP 会 话 时 ， 每 个 BGP 
设备 都 必须 有 唯一 的 Router ID， 否 则 对 等 体 之 间 不 能 建立 BGP 连接 。 

BGP 的 Router ID 在 BGP 网 络 中 必须 是 唯一 的 , 可 以 采用 手动 配置 , 也 可 以 让 BGP 
自己 在 设备 上 选取 。 缺 省 情况 下 ,BGP 选择 设备 上 的 Loopback 接口 的 IPv4 地 址 作为 BGP 
的 Router ID。 如 果 设 备 上 没有 配置 Loopback 接口 ， 系统 会 选择 接口 中 最 大 的 IPv4 地 址 
作为 BGP 的 Router ID ,一旦 选 出 Router_ID, 除非 发 生 进程 重启 或 接口 地 址 删除 等 事件 ， 
否则 即使 配置 了 更 大 的 地 址 ， 也 保持 原来 的 Router_ID。 

BGP 有 限 状 态 机 

BGP 的 有 限 状 态 机 描述 了 BGP 的 邻居 的 建立 和 维护 过 程 ， 状 态 机 共 分 为 6 种 ， 分 
别 是 Idle、Connect、Active、OpenSent、OpenConfirn 和 Established。 如 图 6-4 所 示 。 










Connect Retry Timeout 
性 TCP Failed 


TCP Established 


Start 


TCP Established 


Receive Correct Open 


Open 
Confirm 


Receive Correct Keepalive 


Establieshed 


6-4 ”BGP 状态 机 示意 图 





1. Idle 状态 
BGP 空闲 状态 ， 在 Idle 状态 下 BGP 拒绝 邻居 发 送 的 连接 请 求 ， 此 时 在 等 待 由 BGP 
系统 发 出 的 Start 事件 。Start 事件 发 生 后 ，BGP 会 对 自己 的 资源 进行 初始 化 、 重 置 连接 
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计时 器 (Connect Retry 缺 省 为 32s)， 发 起 TCP 连接 请 求 ， 并 且 开 始 侦 听 远 端 对 等 体 发 
起 连接 的 端口 ， 并 转 至 Connect 状态 。 
4 Start 事件 是 由 一 个 操作 者 配置 一 个 BGP 过 程 ， 或 者 重 置 一 个 已 经 存在 的 过 程 ， 
或 者 路 由 器 软件 重 置 BGP 过 程 引 起 的 。 
4 任何 状态 中 收 到 Notification 报 文 或 TCP 拆除 链 路 通知 等 Error 事件 后 ，BGP 
都 会 转 至 Idle 状态 。 
2.，Connect 状态 
在 Connect 状态 下 ，BGP 启动 连接 重 传 定 时 器 ， 等 待 TCP 完成 连接 。 
4 如 果 TCP 连接 成 功 ， 那 么 BGP 向 对 等 体 发 送 Open 报 文 ， 并 转 至 OpenSent 
状态 。 
4 如 果 TCP 连接 失败 ， 那 么 BGP 转 至 Active 状态 。 
4 ”如 果 连 接 重 传 定 时 器 超时 ，BGP 仍 没 有 收 到 BGP 对 等 体 的 响应 ， 那 么 BGP 继 
续 尝试 和 其 他 BGP 对 等 体 进行 TCP 连接 ， 停 留 在 Connect 状态 。 
4 ”如 果 发 生 其 他 事件 (如 BGP 系统 或 者 操作 人 员 启 动 的 )， 则 退回 到 Idle 状态 。 
3. Active 状态 
在 Active 状态 下 ，BGP 总 是 在 试图 建立 TCP 连接 。 
4 如 果 TCP 连接 成 功 , 那么 BGP 向 对 等 体 发 送 Open 报 文 ,关闭 连接 重 传 定 时 器 ， 
并 转 至 OpenSent 状态 。 
4 ”如 果 TCP 连接 失败 ， 那 么 BGP 停留 在 Active 状态 。 
4 ”如 果 和 连接 重 传 定时 器 超时 ， 仍 没有 收 到 BGP 对 等 体 的 响应 ， 那 么 BGP 转 至 
Connect 状态 。 
9 ”如 果 发 生 其 他 事件 (如 BGP 系统 或 操作 人 员 停 止 连接 )， 则 退回 到 Idle 状态 。 
说 明 ， 
一 般 情 况 下 如 果 邻 居 状 态 在 connect 和 active 之 间 来 回 切 换 ， 有 可 能 是 TCP 重 传 次 数 过 
多 或 者 IP 地 址 不 可 达 所 造成 的 。 


4. OpenSent 状态 
在 OpenSent 状态 下 , BGP 等 待 对 等 体 的 Open 报 文 , 并 对 收 到 的 Open 报 文中 的 AS 
号 、 版 本 号 、 认 证 码 等 进行 检查 。 
8 如果 收 到 的 Open 报 文 正确 ， 那 么 BGP 发 送 Keepalive 报 文 ， 且 重 置 Keepalive 
定时 器 ， 并 转 至 OpenConfirm 状态 。 
9 如 果 发 现 收 到 的 Open 报 文 有 错误 ， 那 么 BGP 发 送 Notification 报 文 给 对 等 体 ， 
并 转 至 Idle 状态 。 
5. OpenConfirm 状态 
在 OpenConfirm 状态 下 ，BGP 等 待 Keepalive 或 Notification 报 文 。 如 果 收 到 Keepalive 
报 文 ， 则 转 至 Established 状态 ， 如 果 收 到 Notification 报 文 ， 则 转 至 Idle 状态 。 
6. Established 状态 
在 Established 状态 下 ，BGP 可 以 和 对 等 体 交 换 Update、Keepalive、Route-refresh 报 
文 和 Notification 报 文 。 
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e 如 果 收 到 正确 的 Update 或 Keepalive 报 文 , 那么 BGP 就 认为 对 端 处 于 正常 运行 
状态 ， 将 保持 BGP 连接 。 

4 如果 收 到 错误 的 Update 或 Keepalive 报 文 ， 那 么 BGP 发 送 Notification 报 文通 
知 对 端 ， 并 转 至 Idle 状态 。 

* ”Route-refresh 报 文 不 会 改变 BGP 状态 。 

9 如 果 收 到 Notification 报 文 ， 那 么 BGP 转 至 Idle 状态 。 

9 ”如 果 收 到 TCP 拆除 链接 通知 ， 那 么 BGP 将 断 开 连接 ， 转 至 Idle 状态 。 

BGP 的 邻居 建立 过 程 

如 图 6-5 所 示 ，R1 与 R2 建立 eBGP 的 邻居 关系 ， 通 过 debugging 信息 来 查看 BGP 

邻居 建立 的 全 过 程 以 及 状态 的 变化 。 


AS2 


10.1.12.1/24 10.1.12.2/24 





图 6-5 ”BGP 的 邻居 建立 过 程 


具体 步骤 如 下 所 述 。 
第 1 步 : 在 Idle 状态 下 等 待 start 事件 发 生 ， 发 起 TCP 会 话 连接 请 求 。 


Nov 12 2015 15:06:32.443.1-05:13 RI RM/6/RMDEBUG: 
BGP_TIMER: CR Timer Expired for Peer 12.1.1.2 

Nov 12 2015 15:06:32.443.2-05:13 R1 RM/6/RMDEBUG: 
BGP.public: 12.1.1.2 Current event is CRTimerExpired. 

Nov 12 2015 15:06:32.443.3-05:13 Rl1 RM/6/RMDEBUG: 
BGP.public: 12.1.1.2 Current event is Start. 


当前 start 事件 已 经 产生 ， 等 待 建立 TCP 连接 ， 并 将 状态 切换 到 connect 状态 。 
第 2 步 : 由 Idle 状态 切换 到 Connect 状态 ， 等 待 TCP 的 会 话 建立 。 


Nov 12 2015 15:06:32.443.4-05:13 R1 RM/6/RMDEBUG: 
BGP.Public: 12.1.1.2 State is changed from IDLE to CONNECT. 

Nov 12 2015 15:06:32.493.1-05:13 R1 RM/6/RMDEBUG: 
BGP.Public: Connect callback recv for peer 12.1.1.2 on socket 2. 

Nov 12 2015 15:06:32.493.2-05:13 Rl RM/6/RMDEBUG: 
BGP.Public: Connected to peer 12.1.1.2 on socket 2. 


当前 已 由 Idle 状态 切换 到 Connect 状态 ， 收 到 对 方 地 址 12.1.1.2 的 回应 报 文 。TCP 
会 话 建 立成 功 ， 接 下 来 需要 互相 发 送 Open 报 文 来 建立 BGP 邻居 关系 。 
第 3 步 : 发送 Open 报 文 协商 相应 参数 。 


Nov 12 2015 15:06:32.493.3-05:13 R1 RM/6/RMDEBUG: 
BGPPublic: Send OPEN MSG to peer 12.1.1.2, Version: 4 
Local AS: 1, HoldTime: 180, Router ID: 12.1.1.1 


Nov 12 2015 15:06:32.493.4-05:13 RI RM/6/RMDEBUG: — 
OPT Type: 2 (Capability) 
CAPType: 1 (MultiprotocoD) CAPLen: 4 


IPv4-UNC (1/1) 
CAPType: 2(RouteRefresh) CAPLen: 0 
CAP Type: 65 (4-byte-as) CAPLen: 4 ASnumber:1 
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Total CAPB Len :14 
Total OPT Len :16 
Total Message Len : 45 


Nov 12 2015 15:06:32.493.5-05:13 R1 RM/6/RMDEBUG: 
BGP: Sent to 12.1.1.2 (AS Number 2) 
(Displaying bytes from 1 to 45) 
FF FF FF FF FF FF FF FF FF FF FF FF FF FF PF FF 
00 2D 01 04 00 01 00 B4 0C 01 01 01 10 02 0E 01 
04 00 01 00 01 02 00 41 04 00 00 00 01 


Nov 12 2015 15:06:32.493.6-05:13 R1 RM/6/RMDEBUG: 
BGP.Public: Send OPEN MSG to peer 12.1.1.2 (SockID 2) on socket 2. 


Nov 12 2015 15:06:32.493.7-05:13 R1 RM/6/RMDEBUG: 
BGP.Public: 12.1.1.2 State is changed from CONNECT to OPENSENT. 


发 送 Open 报 文 到 目标 地 址 12.1.1.2, 且 报 文中 的 本 地 AS 为 1, 最 大 保持 时 间 为 180s， 
本 地 的 Router ID 为 12.1.1.1， 且 携带 了 需要 协商 的 能 力 参数 。 状 态 由 Connect 切换 到 
OpenSent 状态 。 


第 4 步 : 协商 对 方 的 Open 报 文 。 

Nov 12 2015 15:06:44.113.8-05:13 R1 RM/6/RMDEBUG: 
BGP: Received from 12.1.1.2 (AS Number: 2) 
(Displaying bytes from 1 to 45) 

FF FF FF FF FF FF FF FF FF FF FF FF FF FF FF FF 
00 2D 01 04 00 02 00 B4 0C 01 01 02 10 02 0E 01 
04 00 .01 00 01 02 00 41 04 00 00 00 02 


Nov 12 2015 15:06:44.113.9-05:13 R1 RM/6/RMDEBUG: 
BGPPublic: Recv OPEN MSG from peer 12.1.1.2 Length: 45 
Version: 4, Remote AS; 2, HoldTime : 180, 
Router ID: 12.1.1.2, TotOptLen: 16 


OPT Type: 2 (Capability) OPT Len: 14 
CAPType: 1 (Multiprotocol) CAPLen: 4 
IPv4-UNC (1/1) 
CAP Type: 2 (RouteRefresh) CAPLen: 0 
CAP Type: 65 (4-byte-as) CAP Len: 4 
CAP Type: 65 (4-byte-as) CAPLen: 4 ASnumber:2 


Nov 12 2015 15:06:44.113.10-05:13 R1 RM/6/RMDEBUG: 
BGP.public: 12.1.1.2 Current event is ReceiveOpenMessage. 


Nov 12 2015 15:06:44.113.11-05:13 RI1 RM/6/RMDEBUG: 
BGP.Public: Send KEEPALIVE MSG to peer 12.1.1.2 
Length 19 

Nov 12 2015 15:06:44.113.12-05:13 RI RM/6/RMDEBUG: 
BGP: Sent to 12.1.1.2 (AS Number: 2) 
(Displaying bytes from 1 to 19) 
FF FF FF FF FF FF FF FF FF FF FF PF FF FF FF FF 
00 13 04 . 


Nov 12 2015 15:06:44.113.13-05:13 RI1 RM/6/RMDEBUG: 
BGP.Public: 12.1.1.2 State is changed from OPENSENT to OPENCONFIRM. 
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从 12.1.1.2 收 到 了 Open 报 文 ， 其 本 地 AS 号 为 2， 最 大 保持 时 间 为 180s，Router ID 
为 12.1.1.2， 协 商 双 方 的 Open 报 文 ， 如 果 协 商 成 功 ， 由 OpenSent 切换 到 OpenConfirm 

第 5 步 : 等 待 接收 Keeplalive 报 文 。 

Nov 12 2015 15:06:44.153.2-05:13 RIRM/6/RMDEBUG: 
BGP: Received from 12.1.1.2(AS Number: 2) 
(Displaying bytes ffom 1 to 19) 
FF FF FF FF FF FF FF FF FF FF FF FF FF FF FF FF 
00 13 04 


Nov 12 2015 15:06:44.153.3-05:13 Rl RM/6/RMDEBUG: 
BGPPublic: Recv KEEPALIVE MSG from peer 12.1.1.2 
Length: 19 


Nov 12 2015 15:06:44.153.4-05:13 R1 RM/6/RMDEBUG: 
BGP.public: 12.1.1.2 Current event is RecvKeepAliveMessage. 


Nov 12 2015 15:06:44.153.5-05:13 RI RM/6/RMDEBUG: 
BGP.Public: 12.1.1.2 State is changed from OPENCONFIRM to ESTABLISHED. 


Nov 12 2015 15:06:44.153.6-05:13 R1 RM/6/RMDEBUG: 
BGP_GR: Session Up Count INCR : 1 


Nov 12 2015 15:06:44-05:13 R1 %%01BGP/3/STATE_ CHG_ UPDOWN(D[1]:The status of the peer 12.1.1.2 changed from 
OPENCONFIRM to ESTABLISHED. (InstanceName=Public, StateChangeReason=Up) 


当 收 到 keepalive 报 文 后 ， 由 OpenConfirm 切换 到 Established 状态 。 


注 沪 : 
BGP 依靠 TCP 来 传输 ， 底 层 的 TCP 会 话 建立 成 功 才能 够 建立 BGP 邻居 关系 ， 任 何 错误 
事件 都 将 导致 邻居 状态 回 到 Idle， 重 新 尝试 建立 TCP 会 话 。 


BGP 邻居 无 法 建立 的 因素 

BGP 对 等 体 之 间 无 法 建立 邻居 主要 体现 在 邻居 状态 无 法 进入 到 Established 状态 , 有 
可 能 处 于 Idle、Connect、Active 状态 ， 如 果 处 于 这 三 种 状态 ， 说 明 BGP 会 话 没 有 建立 成 
功 ， 如 果 处 于 OpenSent、OpenConfirm 则 说 明 邻 居 协 商 出 现 问 题 。 以 下 总 结 了 邻居 无 法 

# 两边 BGPpeer 地 址 不 可 达 ， 一 般 是 底层 原因 或 者 缺少 可 达 的 路 由 ; 

4 ”对 等 体 AS 配置 错误 ; 

4 eeBGP 的 跳 数 问题 ; 

4 更 新 源 问题 ; 

* BGP 的 认证 错误 ; 

4 ”Open 报 文 协商 失败 ，Open 报 文 需要 协商 BGP 版 本 、Holdtime、Router ID 以 

及 可 选项 参数 (包括 各 种 能 力 参 数 ) 等 ; 

* BGP 的 Router ID 冲突 ; 

4 联盟 与 非 联盟 之 问 的 BGP 连接 配置 错误 ; 

4 错误 报 文 导致 连接 中 断 ， 比 较 少 见 的 如 BGP 的 Marker 值 出 现 错误 
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BGP 对 等 体 之 间 交 互 原则 
BGP 设备 将 最 优 路 由 加 入 BGP 路 由 表 ， 形 成 BGP 路 由 。BGP 设备 与 对 等 体 建立 邻 
居 关 系 后 ， 采 取 以 下 交互 原则 。 

。 从 BGP 对 等 体 收 到 的 路 由 ，BGP 设备 只 发 布 给 它 的 eBGP 对 等 体 。 
从 eBGP 对 等 体 收 到 的 路 由 ，BGP 设备 发 布 给 它 所 有 eBGP 和 iBGP 对 等 体 。 
BGP 设备 只 将 最 优 路 由 发 布 给 对 等 体 。 
路 由 更 新 时 ，BGP 设备 只 发 送 更 新 的 BGP 路 由 。 
所 有 对 等 体 发 送 的 路 由 ，BGP 设备 都 会 接收 。 


6.1.6 ”BGP 报 文 结构 


由 于 BGP 是 承载 在 TCP 之 上 的 协议 , 在 建立 一 个 BGP 对 等 体 之 前 必须 建立 标准 的 
TCP 三 次 握手 ， 并 且 在 目标 端 打 开 一 个 到 端口 为 179 的 连接 ，TCP 能 够 提供 可 靠 的 传输 
方式 ， 可 以 进行 重 传 、 确 认 及 排序 功能 。BGP 不 需要 开发 确认 报 文 ， 因 为 所 有 的 确认 都 
由 TCP 层 来 提供 ， 从 而 可 以 减少 BGP 的 报 文 数量 ，BGP 所 有 报 文 均 采用 单 播 的 方式 来 
发 送 ， 因 此 不 能 够 自动 地 发 现 邻 居 。 


BGP 具有 五 种 报 文 类 型 : 
e Open 

e Keepalive 

ee Update 

e Notification 

e Route-refresh 


Open 报 文 

TCP 会 话 建立 起 来 以 后 ， 两 个 邻居 都 要 发 送 一 个 Open 报 文 ， 每 个 邻居 都 使 用 该 报 
文 来 标识 自己 ， 并 且 规 定 自己 运行 BGP 的 参数 ，Open 报 文 是 由 报 文 头 部 加 上 报 文 主体 
部 分 ， 报 文 头 结构 如 图 6-6 所 示 。 


A 
N\ Re 


Marker(16B) 


图 6-6 ” 报 文 头 部 


Marker (标记 ): 16Byte， 该 标记 字段 用 于 检测 BGP 对 等 体 之 间 的 同步 丢失 情况 ， 
并 且 在 支持 验证 功能 的 情况 下 进行 消息 验证 。 如 果 消 息 类 型 为 Open 或 Open 消息 中 未 包 
含 验证 消息 ， 标 志 字 段 将 被 设置 为 全 1; 和 否则， 标志 字段 值 通过 某 些 计 算得 到 《作为 验 
证 进程 的 一 部 分 )。 

Length (长 度 ): 2Byte 无 符号 整数 ， 指 定 了 消息 的 全 长 ， 包 括 头 部 ，BGP 报 文 总 长 
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度 在 19 一 4096Byte 之 间 。 
Type 〈 类 型 ): 1Byte， 标 识 BGP 的 报 文 类 型 ， 有 以 下 儿 种 消息 类 型 。 


e Open 

e Update 

® Keepalive 

e Notification 
e Route-refresh 


二 
i Se 
Se ww 


My Autonomous System(2B) 


图 6-7 Open 报 文 


BGP 版 本 号 : 1Byte， 标识 BGP 的 对 等 体 在 使 用 的 版 本 ， 缺 省 版 本 都 为 BGP-4， 如 
邻居 运行 的 是 较 早 的 版 本 ， 那 么 它 将 会 拒绝 Version 4 的 消息 ; 于 是 路 由 器 的 版 本 将 改 
为 Version3 并 且 再 发 送 一 个 Open 消息 (如 图 6-7 所 示 )， 直 到 两 边 的 邻居 协商 一 致 。 

My AS (自身 AS 号 ): 2Byte，BGP 路 由 器 的 AS 号 ， 它 用 来 决定 该 BGP 会 话 是 eBGP 
还 是 iBGP (具有 相同 的 AS 号 的 邻居 为 iBGP 邻居 ， 不 同 则 为 eBGP 邻居 )， 范 围 从 1 一 
65535( 目 前 也 有 4Byte 的 AS 号 ， 范 围 从 1 一 4294967295 )。 

Hold time (保持 上 时间): 2Byte， 对 等 体 之 间 相 互 协商 的 最 大 保持 时 间 ， 一 般 为 
Keepalive 时 间 的 3 倍 ， 缺 省 情况 下 保持 时 间 为 180s。 保 持 时 间 是 一 个 计数 器 ， 从 0 
一 直 增 加 到 该 值 ， 等 待 接收 Keepalive (每 隔 60s 发 送 一 次 ) 或 者 Update 报 文 ， 收 到 
后 将 保持 时 间 清 零 ， 如 在 保持 时 间 内 没有 收 到 报 文 则 认为 邻居 失效 。 如 果 BGP 对 等 
体 之 间 协 商 的 保持 时 间 不 一 致 ， 将 会 采用 较 短 的 时 间作 为 保持 时 间 。 最 小 可 以 为 0， 
这 种 情况 下 BGP 连接 被 认为 永远 是 UP， 对 等 体 之 间 不 会 发 送 Keepalive 报 文 来 检测 
邻居 是 否 失效 。 

BGP identifier: 4Byte， 用 来 标识 BGP 对 等 体 的 Router_ ID， 选举 方式 与 OSPF 相 
同 ， 也 可 以 手工 强制 指定 。 

Opt Param Len: 1Byte， 指 示 接 下 来 可 选 参数 字段 的 整体 长 度 ， 用 Byte 来 表示 ， 
如 果 这 个 字段 为 0， 那么 该 消息 中 没有 包含 的 可 选 参数 字段 。 

Optional parameters: 可 变 长 的 字段 , 用 于 BGP 邻居 会 话 协商 过 程 中 所 使 用 的 可 选 
参数 列表 。 每 一 个 参数 为 一 个 (参数 类 型 、 参 数 长 度 、 参 数值 ) 三 元 组 ， 这 个 字段 用 于 
公布 一 些 可 选 功能 的 支持 ， 如 多 协议 扩展 能 力 、 路 由 刷新 能 力 、 四 字 节 AS 号 等 能 力 ， 
具体 可 以 参考 表 6-1。 











ye 
Nw 
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表 6-1 _BGP 六 


MVDN 


IPv6 Unicast Multiprotocol (1) 证 本 1 
IPv6 Multicast Mnultiprotocol (1) Te 六 











IPv6 VPNv4 Multiprotocol (1) 128 
Label IPv6 Multiprotocol (1) 4 
VPLS (RFC4761) Multiprotocol (1) 65 





Refresh Route Refresh (2) 
GR Graceful Restart (64) 
4-AS 4-AS (65) 


Dynamic Capabiity 

说 明 : 

如 果 BGP 路 由 器 支持 能 力 协商 ， 在 向 对 等 体 发 送 Open 消息 的 时 候 ， 在 消息 当中 可 以 
包括 可 选 能 力 参 数 ，BGP 将 会 检查 其 中 的 信息 ， 以 确保 对 等 体 所 支持 的 能 力 ， 如 果 对 等 体 
支持 ， 那 么 就 可 以 使 用 该 能 力 。 如 果 对 等 体 发 送 Notification 消息 (如 图 6-8 所 示 )， 且 错 
误 子 码 中 被 设置 为 “不 可 支持 的 可 选 参数 "， 则 说 明 对 等 体 不 支持 该 能 力 ， 此 时 BGP 将 尝 
试 重建 邻居 ,， 且 不 再 发 送 能 力 参 数 。 有 关 能 力 协商 中 的 Multiprotocol-BGP (BGP 多 协议 扩展 ) 
正 是 BGP 具备 较 强 的 扩展 特性 的 体现 ， 将 在 后 面 章 节 中 讨论 。 











Keepalive 报 文 : 


二 


De 


Marker(16B) 





Length(2B) Type(1B) 


图 6-8 Keepalive 报 文 


Keepalive 消息 以 保持 时 间 的 1/3 的 时 间 间 隔 进行 交互 ,用 于 检测 TCP 连接 是 否 正常 ， 
但 是 不 能 够 低 于 1s， 如 果 保 持 时 间 协 商 为 0， 那 么 不 会 发 送 Keepalive 消息 。Keepalive 
消息 只 包含 BGP 消息 头 部 ， 在 发 送 消 息 的 时 间 间 隔 内 ， 如 果 BGP 发 送 过 Update 消息 ， 
就 会 抑制 Keepalive 消息 的 发 送 。 
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图 6-9 ”Update 报 文 


Update 消息 (如 图 6-9 所 示 ) 用 来 通告 可 达 路 由 和 不 可 达 路 由 ， 消 息 主要 包含 以 下 内 容 。 

NLRI (网络 层 可 达 信 息 ): 可 变 长 字段 ， 包 括 一 个 字 节 组 (前 级 、 长 度 ) 列表 ， 长 
度 部 分 用 比特 来 表示 下 面 的 前 级 长 度 ， 前 级 是 NLRI 的 IP 地 址 前 级 。 例 如 <24， 
192.168.10.0> 表 示 前 缀 为 192.168.10.0、 掩 码 为 255.255.255.0 的 网 络 ， 如 果 长 度 为 0 则 
表示 该 前 级 与 所 有 的 IP 地 址 匹配 。 

Path attributes (路 径 属性 ):， 可 变 长 字段 ， 列 出 与 下 面 NLRL 相关 的 属性 ， 每 个 路 
径 属 性 都 由 可 变 长 的 三 元 组 (属性 类 型 、 属 性 长 度 、 属 性 值 ) 组 成 ， 为 BGP 提供 选择 最 
短路 径 、 检 查 路 由 环 路 以 及 决定 路 由 策略 的 信息 , 如 图 6-10 所 示 。 属性 类 型 是 一 个 2Byte 
的 字段 ， 包 含 1Byte 的 属性 标记 、1Byte 的 属性 类 型 代码 字段 。 


0 1 7 15 
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图 6-10 路 径 属性 类 型 字段 格式 


从 该 字段 的 格式 前 两 位 标记 字段 来 看 ， 可 以 将 属性 分 为 四 种 组 合 ， 即 公认 必 遵 、 公 
认 任 意 、 可 选 过 渡 、 可 选 非 过 渡 。 

。 属性 的 第 0 位 表示 属性 是 公认 的 还 是 可 选 的 (0: 公认 ，1: 可 选 )。 

。 属性 的 第 1 位 表示 属性 是 过 渡 还 是 非 过 渡 (0: 非 过 渡 ，1: 过 渡 )， 公 认 属 性 总 
是 可 过 渡 的 ， 所 以 第 1 位 总 是 置 为 1。 

。 属性 的 第 2 位 表示 可 选 过 渡 属 性 中 的 信息 是 完全 的 还 是 部 分 的 〈0: 完全 ，1; 
部 分 )。 

e。 属性 的 第 3 位 表示 属性 的 长 度 (0: 一 个 字 节 ，1: 两 个 字 节 )。 

。 第 4 到 第 7 位 未 被 使 用 ， 总 是 为 0。 

。 第 8 到 第 15 位 是 属性 类 型 的 代码 ， 有 具体 对 照 表 见 表 6-2。 


表 6-2 属性 类 型 代码 对 照 表 
公认 少 地 类 型 代码 | 

公认 必 避 类 型 代码 
公认 地/ 类 型 代码 3 
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而 








4 可 选 非 过 度 属性 /类 型 代码 4 
5 公认 任意 属性 /类 型 代码 5 
6 公认 任意 属性 /类 型 代码 6 
7 可 选 过 渡 属性 /类 型 代码 7 

8 可 选 过 渡 属性 /类 型 代码 8 
9 可 选 非 过 渡 属性 /类 型 代码 9 
10 可 选 非 过 渡 属性 /类 型 代码 10 
1 BoP 的 目的 点 

12 BGP/IDRP 路 由 服务 器 属性 
13 BGP/IDRP 路 由 服务 器 属性 
14 可 选 非 过 渡 属 性 /类 型 代码 14 


15 MP_UNREACH_ NLRI 可 选 非 过 渡 属 性 /类 型 代码 15 
16 扩展 团体 属性 可 选 非 过 渡 属 性 /类 型 代码 16 


Withdrawn Routes (撤销 路 由 ): (可 变 长 〉 撤 销路 由 ， 与 NLRI 格式 相同 ， 同 样 以 
<length，prefix> 的 格式 来 表示 ， 例 如 <19，198.18.160.0> 表 示 将 一 个 198.18.160.0 255. 
255.224.0 的 网 络 撤销 掉 。 

Withdrawn Routes Length (撤销 路 由 长 度 ): (2Byte 无 符号 整数 ) 不 可 达 路 由 长 度 ， 
表示 Withdrawn Routes 字段 的 数据 长 度 。 如 果 Withdrawn Routes Length 字段 数值 为 0， 
则 表示 Withdrawn Routes 字段 没有 任何 数据 ， 在 Update 消息 中 不 会 被 显示 。 

Notification 报 文 


一 
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Error Code(1B) | Error SubCode(1B) Data〔( 可 变 长 度 ) 


图 6-11 ” Notification 报 文 


当 检 测 到 差错 的 时 候 就 会 发 送 Notification 消息 ， 并 且 会 导致 BGP 连接 终止 ， 例 如 
对 等 体 之 间 的 AS 号 不 对 称 、 邻 居 地 址 不 可 达 等 原因 造成 的 邻居 终止 ， 都 会 由 一 个 差错 列 
表 标识 。Notification 消息 由 错误 代码 、 错 误 子 代码 以 及 数据 字段 构成 ， 如 图 6-11 所 示 。 

Errorcode: 错误 码 。1Byte 长 的 字段 ， 表 示 错 误 通 告 的 类 型 ， 每 个 不 同 的 错误 都 使 
用 唯一 的 代码 表示 ， 而 每 一 个 错误 码 都 可 以 拥有 一 个 或 多 个 错误 子 码 ， 但 如 果 某 些 错误 
码 并 不 存在 错误 子 码 的 话 ， 则 该 错误 子 码 字段 以 全 0 表示 。 

Errsubcode: 错误 子 码 。1Byte 长 度 ， 提 供 了 与 错误 种 类 有 关 的 具体 信息 。 

Data: 可 变 长 字段 ， 包 含 了 与 错误 有 关 的 数据 ， 用 来 诊断 差错 原因 ， 比 如 非法 的 
AS 号 、 认 证 失败 等 。 

表 6-3 中 列举 了 可 能 存在 的 错误 代码 及 错误 子 码 。 


人 
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303 “者 加 


| HCIE 路 由 交换 学 习 指南 | 


表 6-3 错误 码 及 错误 子 码 对 照 表 
。 连接 不 同步 
.无效 的 消息 长 度 
.无效 的 消息 类 型 
. 不 支持 的 版 本 号 
无 效 的 对 等 体 AS 
. 无效 的 BGP 标识 符 
不 支持 的 可 选 参数 
认证 失败 
. 不 能 接受 的 保持 时 间 > 
. 不 支持 的 能 力 
.上 畸形 属性 列表 
. 未 能 识别 的 公认 属性 
. 公认 属性 丢失 
.属性 标记 错误 
. 属性 长 度 错误 
.无 效 的 起 源 属性 
.AS 路 由 环 路 
. 可 选 属性 错误 
. 无效 的 网 络 字段 

10. 畸形 AS_PATH 
4 保持 时 间 超 时 N/A 
5 状态 机 错误 N/A 
6 终止 N/A 





1 消息 头 错 误 


2 OPEN 消息 错误 


3 Update 消息 错误 


No -WE 


Route--refresh 报 文 


Po ~ 


or Ses i 
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图 6-12 ”Route-refresh 报 文 
通过 Open 消息 告知 BGP 对 等 体 本 地 支持 路 由 刷新 能 力 (Route-refresh capability )。 
在 所 有 BGP 路 由 器 使 能 Route-refresh 能 力 的 情况 下 ， 如 果 BGP 的 入 口 路 由 策略 发 生 了 
变化 , 本 地 BGP 路 由 器 可 以 通过 手动 触发 ， 向 对 等 体 发 布 Route-refresh 消息 ， 收 到 此 消 
息 的 对 等 体会 将 其 路 由 信息 重新 发 给 本 地 BGP 路 由 器 。 这 样 ， 可 以 在 不 中 断 BGP 连接 
的 情况 下 ， 对 BGP 路 由 表 进 行动 态 刷 新 ， 并 应 用 新 的 路 由 策略 ， 如 图 6-12 所 示 。 


6.2 ”BGP 路 径 属 性 


6.2.1 属性 分 类 
BGP 的 路 径 属 性 是 对 BGP 路 由 特定 的 描述 ， 是 每 个 BGP Update 数据 包 的 一 部 分 ， 
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描述 了 相关 前 级 的 路 径 信息 。BGP 决策 进程 将 属性 及 所 描述 的 前 绥 结 合 在 一 起 ， 对 所 有 
可 以 到 达 的 目标 网 络 的 路 径 进行 比较 ， 选 出 最 优 的 那 一 个 。 路 径 属 性 提供 了 基本 路 由 功 
能 必需 的 信息 ， 例 如 该 路 由 的 Next Hop、AS_PATH 等 。BGP 常用 的 路 径 属 性 有 10 个 ， 


可 分 成 4 类 。 如 图 6-13 所 示 。 











“ORIGIN(1) ~ .LOCAL PREFERENCE(S) * MULTI EXIT_DISC(4) “AGGREGATOR(7) 
“AS PATH(2) ATOMIC AGGREGATEC6) * ORIGINATOR ID(9) .COMMUNITY(8) 
* NEXT_HOP(3) * CLUSTER LIST(10) 


图 6-13 属性 分 类 树 形 图 


。 公认 必 遵 (Well-known Mandatory): 所 有 BGP 设备 都 可 以 识别 此 类 属性 ， 且 必 
须 存 在 于 Update 报 文中 。 如 果 收 到 的 更 新 报 文中 缺少 这 类 属性 ，BGP 邻居 关 
系 会 被 重 置 。 目 前 公认 必 遵 的 属性 只 有 3 个 。 

。 公认 任意 (Well-known Discretionary): 所 有 BGP 设备 都 可 以 识别 此 类 属性 ， 
但 不 要 求 更 新 中 必须 携带 该 属性 。 即 使 缺少 这 类 属性 ， 邻 居 关 系 也 不 受 影 响 ， 
设备 厂商 可 以 自由 决定 此 种 属性 要 否 实现 。 

e “可 选 过 渡 (Optional Transitive): BGP 设备 可 以 不 识别 此 类 属性 。 如 果 BGP 设备 识 
别 该 属性 ， 则 转发 该 属性 的 更 新 。 如 果 BGP 设备 不 识别 该 属性 ， 则 查看 该 属性 是 
否 已 设置 了 过 渡 标 记 ， 如 设置 了 该 标记 则 路 由 把 该 属性 转发 并 通告 给 下 游 设备 。 

。 可 选 非 过 渡 (Optional Non-transitive): BGP 设备 可 以 不 识别 此 类 属性 。 如 果 
BGP 设备 不 识别 此 类 属性 ， 且 过 渡 标 记 没 有 被 设置 的 情况 下 ， 则 更 新 中 不 通告 
该 属性 ， 路 由 继续 通告 给 其 他 对 等 体 。 

说 明 : 

(1) BGP 协议 的 属性 众多 ， 不 同 的 属性 所 起 的 作用 均 不 同 ，IETF 定义 不 同 的 属性 分 类 

的 目的 是 为 了 统一 不 同 厂商 BGP 设备 对 属性 的 处 理 。 
(2) 常用 的 可 选 属性 中 ，MED、Originator_ID、Cluster_List 是 非 过 渡 属 性 ， 但 目前 几乎 没 
有 厂商 不 识别 该 属性 ， 所 以 所 有 BGP 设备 都 传递 该 属性 给 邻居 。 


常用 的 BGP 属性 共有 10 个 ， 其 属性 类 型 及 数值 参考 表 6-4。 
本 属性 类 型 及 对 应 内 容 
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( 续 表 ) 
| 1 |as set 
2 AS PATH as_sequence 


as confed set 
| 1 一: 寺 | as_confed_ sequence 
| NextHop | 0 |next hopIPaddress 
| Multi Exit pise | 0 |4-octetMED 
| LocalPref | 0 |4octetlocal pref 
| Atomic Aggregate | 0 |none 
| Aggregator | 0 | as number and IP address of aggregator 
| Community | 0 | 4-octet community identifier 
| Orginator ID | 0 | 4-octet Router_ID of originator 
| chsterLst | 0 | Variable-length list of cluster IDs 





‘ol 


一 
[= 


6.2.2 ”属性 的 用 法 


Origin 属性 

该 属性 为 公认 必 遵 属性 , 用 来 代表 BGP 路 由 的 起 源 , 还 用 来 标记 一 条 路 由 是 如 何 进 
入 BGP 中， 有 以 下 3 种 类 型 。 

(1) IGP: 通过 内 部 网 关 协 议 学 习 的 路 由 ， 通 过 Network 的 方式 注入 到 BGP 中 的 路 
由 或 者 聚合 路 由 ， 它 们 的 起 源 属性 的 数值 为 IGP。 

(2) EGP: 通过 EGP 学 习 到 的 路 由 ， 其 origin 属性 为 EGP。 

(3) incomplete: 表明 路 径 不 完整 ， 未 知 源 ， 一 般 通 过 引入 〈import) 路 由 表 里 路 由 
的 方式 到 BGP 的 路 由 或 者 聚合 路 由 ， 它 们 的 起 源 属性 为 incomplete。 


说 明 : 

聚合 路 由 的 起 源 属性 可 以 是 IGP， 也 可 能 是 incomplete， 这 依赖 于 聚合 路 由 的 成 员 路 由 
的 起 源 属性 。 如 果 成 员 路 由 的 origin 属性 都 是 IGP， 则 聚合 路 由 的 起 源 属性 为 IGP。 如 果 成 
员 路 由 的 origin 属性 是 incomplete， 则 聚合 路 由 的 起 源 属性 为 incomplete。 而 如 果 有 些 成 员 
路 由 是 IGP， 而 有 些 成 员 路 由 的 属性 是 incomplete， 则 生成 的 聚合 路 由 的 起 源 属 性 是 


incomplete。 


origin 类 型 的 3 个 数值 之 间 有 优先 顺序 ，IGP>EGP>incomplete， 也 就 是 说 从 IGP 学 
习 到 的 路 由 优 于 从 EGP 学 到 的 路 由 ， 优 于 路 由 引入 进 BGP 的 路 由 。 下 图 中 100.1.1.0/24 
网 段 是 通过 Network 方式 通告 进 BGP 的 ,而 200.1.1.0/24 是 通过 import-route 引入 进 BGP 
的 ，origin 属性 分 别 标识 为 /?。 
[Huaweildisplay bgp routing-table 
_BGPLocal router ID is 12.1.1.1 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 2 
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Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 100.1.1.0/24 0.0.0.0 0 0 i 
eso00.El0 0.0.0.0 0 0 ? 
注意 : 


i 表示 由 IGP 学 到 的 路 由 。@ 表示 该 标识 只 能 手工 地 调整 。 由 于 EGP 协议 几乎 没有 使 用 ， 
因此 很 难看 到 该 标识 。? 表示 由 外 部 引入 到 BGP 的 路 由 。 


AS_PATH 属性 

该 属性 为 公认 必 遵 属性 ， 用 于 记录 路 由 所 经 过 的 路 径 上 沿途 经 过 的 AS，BGP 对 等 
体 间 传递 的 每 条 路 由 都 会 携带 这 份 AS 号 列表 。 

路 由 在 AS 内 传递 时 ， 不 对 路 由 的 AS_PATH 属性 内 容 做 任何 改动 。 

路 由 在 离开 AS 时 ， 当 前 的 AS 号 会 自动 添加 到 AS_PATH 序列 的 前 面 。 

当 任何 BGP 设备 收 到 路 由 时 ， 都 要 检查 AS_PATH 属性 的 内 容 ， 如 果 在 AS_PATH 
中 含有 接收 路 由 器 所 在 AS 号 ， 则 BGP 路 由 器 会 丢弃 此 种 路 由 ， 以 避免 环 路 。AS_PATH 
除了 能 够 防 环 外 ， 还 可 以 根据 AS_PATH 的 长 度 决定 选择 最 优 路 由 。 

BGP 的 AS_PATH 属性 内 容 是 由 segment 构成 的 ， 有 4 种 segment 类 型 ， 分 别 是 
AS SET、AS SEQUENCE、AS_CONFED SET、AS_CONFED SEQUENCE 。 后 两 种 
segment 类 型 仅 出 现在 BGP 联盟 中 ， 每 种 segment 类 型 在 AS_ PATH 属性 中 仅 能 出 现 一 
次 。AS_ PATH 属性 见 表 6-5。 


表 6-5 AS_PATH 属性 
个 AS_PATH 属性 说 ” 明 
AS SET 是 AS 号 的 无 序 集合 
AS_SEQUENCE 是 AS 号 的 有 序列 表 
AS CONFED SET 是 联盟 中 成 员 AS 号 的 无 序 集合 
AS CONFED SEQUENCE 是 联盟 中 成 员 AS 号 的 有 序列 表 


AS_PATH 属性 详细 说 明 

(1) 在 AS_PATH 中 可 能 仅 含 有 一 种 segment 类 型 ， 也 可 能 同时 含有 多 种 segment 
类 型 ， 若 多 种 类 型 同时 出 现在 AS PATH 中 ， 则 前 后 顺序 一 定 是 AS_ CONFED 
SEQUENCE、AS_CONFED SET、 AS SEQUENCE、AS_SET。 

(2) AS_ SET 和 AS_CONFED SET 一 定 是 聚合 路 由 的 AS_PATH 才 会 包含 的 segment 
类 型 。 

(3) 不 论 是 何 种 类 型 的 segment， 若 其 中 含有 的 AS 号 等 于 接收 设备 所 在 的 AS 号 ， 
则 该 路 由 都 将 因为 环 路 问题 而 被 丢弃 。 

(4) AS_PATH 的 长 度 是 由 AS_SEQUENCE 这 种 segment 的 AS 号 的 数量 来 决定 的 ， 
其 AS 号 越 多 ， 则 代表 长 度 越 长 。 而 AS CONFED XX 和 AS_SET 的 长 度 都 不 计 入 
AS_PATH 长 度 计算 。 在 BGP 选 路 规则 中 ， 如 果 其 他 属性 都 一 致 ， 则 AS_PATH 的 长 度 
越 短 的 路 由 越 好 。 

(5) BGP 防 环 是 靠 eBGP 间 的 AS_PATH 属性 来 保证 的 ， 但 如 果 使 用 命令 peer 
[ipv4-address] allow-as-loop， 可 使 接收 BGP 设备 接收 含有 自己 AS 号 码 的 路 由 ， 这 破坏 
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了 BGP 的 防 环 规则 ， 这 条 命令 的 使 用 场景 主要 在 MPLS VPN 环境 中 。 

BGP 设备 对 AS_PATH 的 计算 方法 如 下 : 

(1) 在 本 AS 内 注入 的 路 由 ， 其 AS_PATH 为 空 ， 仅 当 该 路 由 离开 本 AS 时 ， 即 通告 
给 eBGP 对 等 设备 时 ， 在 Update 报 文中 会 创建 含 自己 AS 号 码 的 AS_PATH 列表 。 且 AS 
号 出 现在 AS_ SEQUENCE 的 最 左面 〈 前 面 )。 

(2) 在 AS 内 的 启 GP 上 通告 路 由 时 ， 其 AS_PATH 不 变化 。 

(3) 一 般 不 建议 对 AS_PATH 做 任何 删 /改行 为 ， 这 易于 导致 路 由 环 路 。 但 管理 员 可 
根据 需要 添加 重复 的 AS 号 到 AS_PATH 中 以 增加 AS_PATH 的 长 度 ， 继 而 影响 远 端 设备 
选 路 。 

(4) 使 用 命令 peer [ipv4-addressjpublic-as-only 发 送 eBGP 报 文 时 ， 仅 携带 公有 AS 号 。 

(5) 在 互联 网 中 只 有 公有 AS 号 可 以 直接 在 Internet 上 使 用 ， 私 有 AS 号 直接 发 布 到 
Internet 上 可 能 造成 环 路 现象 。 为 了 解决 上 述 情况 ， 可 以 在 把 路 由 发 布 到 Internet 前 ， 配 
置 发 送 eBGP 更 新 报 文 时 ，AS _PATH 属性 中 仅 携带 公有 AS 号 。 

(6) 通常 情况 下 ， 一 个 设备 只 支持 一 个 BGP 进程 ， 即 只 支持 一 个 AS 号 。 但 是 在 某 
些 特殊 情况 下 ， 例 如 网 络 迁 移 更 换 AS 号 的 时 候 为 了 保证 网 络 切 换 的 顺利 进行 ， 可 以 为 
指定 对 等 体 设置 一 个 伪 AS 号 ， 对 方 将 会 使 用 该 伪造 AS 号 与 之 建立 邻居 ， 同 样 可 以 起 
到 隐藏 自身 真实 AS 的 作用 。 使 用 命令 peer [ipv4-address] fake-as fake-as-number 配置 
eBGP 对 等 体 的 伪 AS 号 。 例 如 : 原 BGP 进程 为 200， 使 用 命令 peer 2.2.2.2 fake-as 100， 
将 会 与 对 等 体 2.2.2.2 使 用 伪造 的 AS 100 来 建立 邻居 。 

(7) 如 果 在 路 由 进程 中 配置 了 AS_PATH-limit 命令 ， 接 收 路 由 时 会 检查 AS_ PATH 
属性 长 度 是 否 超 限 ， 如 果 超 出 则 丢弃 掉 路 由 。 缺 省 情况 下 AS_PATH 长 度 为 2355， 最 大 限 
制 值 可 以 调整 为 2000。 

如 图 6-14 所 示 ，100.1.1.0/24 路 由 出 现在 AS 200 中 ， 如 果 该 路 由 经 过 AS 100 进入 
AS 300, R5 会 把 该 路 由 继续 向 eBGP 邻居 R4 通告 。 图 中 , 路 由 离开 AS 100 时 AS_PATH 
为 100 200， 路 由 离开 AS 300 时 ，AS_PATH 是 300 100 200。R4 收 到 含有 自己 AS 号 的 
路 由 时 会 丢弃 掉 ， 以 避免 环 路 。 


NLRI:100.1.1.0/24 NLRI:100.1.1.0/24 
AS_PATH:200 AS-PATH:200 


NLRI:100.1.1.0/24 
AS_PATH:300 100 200 





图 6-14 AS PATH 计算 
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人 Pos Eel 
Next_Hop 属性 
该 属性 为 公认 必 遵 属性 , Next_Hop 属性 记录 了 BGP 路 由 的 下 一 跳 信 息 , 区 别 于 IGP 
中 下 一 跳 是 直 连 路 由 器 的 他 地 址 ，BGP 路 由 的 下 一 跳 往往 都 是 非 直 连 设备 的 I 了 P 地 址 。 
这 可 导致 数据 包 在 按 下 一 跳 地址 发 给 目标 网 络 时 ， 往 往 由 于 中 间 路 由 器 上 没有 BGP 路 
由 ， 而 出 现 路 由 黑洞 ， 导 致 丢 包 ， 如 图 6-15 所 示 。 


12.1.1.0/24 23.1.1.0/24 


一 
Next-Hop 23.1.1.2 Next-Hop 23.1.1.2 
NLRI:10.0.0.0/24 NLRI: 10.0.0.0/24 


6-15 Next Hop 属性 





BGP 设计 的 下 一 跳 属性 遵循 如 下 规则 。 

。 ”规则 1: BGP 设备 将 本 地 始 发 路 由 发 布 给 所 有 BGP 对 等 体 时 , 会 把 该 路 由 信息 
的 下 一 跳 属 性 设置 为 本 地 与 对 端 建立 BGP 邻居 关系 的 接口 地 址 。 图 中 ，R1 通 
告 10.1.1.0/24 路 由 给 R2，R2 的 BGP 路 由 下 一 跳 是 12.1.1.1。 

。 规则 2: BGP 设备 在 向 eBGP 对 等 体 发 布 某 条 路 由 时 ， 会 把 该 路 由 信息 的 下 一 
跳 属性 设置 为 本 地 与 对 端 建立 BGP 邻居 关系 的 接口 地 址 。 图 中 ，R2 向 eBGP 
对 等 体 R3 通告 10.1.1.0/24 路 由 ， 下 一 跳 不 再 是 12.1.1.1， 而 是 23.1.1.2。 

。 规则 3: BGP 设备 在 向 iBGP 对 等 体 发 布 从 eBGP 对 等 体 学 来 的 路 由 时 ， 并 不 
改变 该 路 由 信息 的 下 一 跳 属 性 。 图 中 ，R3 收 到 下 一 跳 为 23.1.1.2 的 路 由 ， 继 续 
通告 给 iBGP 对 等 体 R4， 下 一 跳 属性 值 保持 不 变 。 

(1) 缺 省 情况 下 ，BGP 在 向 eBGP 对 等 体 发 布 路 由 时 和 向 iBGP 对 等 体 发 布 引入 的 

IGP 路 由 时 将 下 一 跳 改 为 自己 的 接口 地 址 。 这 是 由 于 默认 使 用 的 命令 是 peer 
next-hop-local， 但 这 个 行为 可 以 配置 peer next_hop-invariable 命令 使 下 一 跳 地 址 不 变化 。 
<Huawei> system-view 

[Huawei] bgp 100 

[Huawei-bgp] peer 12.1.1.2 as-number 100 

[Huawei-bgp] ipv4-family unicast 

[Huawei-bgp-af-ipv4] peer 12.1.1.2 next-hop-invariable 

(2) BGP 在 向 iBGP 对 等 体 通 告 路 由 时 ， 不 改变 下 一 跳 属性 。 这 可 以 通过 命令 peer 

next-hop-local 修改 。peer next-hop-local 命令 在 实际 中 使 用 较 多 ， 原 因 是 BGP 设备 从 其 
eBGP 邻居 收 来 的 路 由 的 下 一 跳 都 是 其 eBGP 邻居 的 Peer 地 址 ， 本 端 对 等 体 所属 AS 域 
内 的 记 GP 邻居 收 到 这 样 的 路 由 后 ， 由 于 下 一 跳 不 可 达 导 致 路 由 无 法 活跃 。 图 中 ，R3 和 
R4 均 收 到 下 一 跳 地 址 为 23.1.1.2 的 路 由 ，R4 一 定 要 保证 此 下 一 跳 地 址 可 达 。 因 此 ， 需 
要 在 R3 上 对 iBGP 邻居 配置 peer next-hop-local 命令 , 使 得 发 给 BGP 邻居 的 路 由 的 下 一 
跳 是 其 自身 的 地 址 ，iBGP 邻居 收 到 这 样 的 路 由 后 (由 于 域内 都 配置 了 IGP) 发 现下 一 跳 
可 达 ， 路 由 即 为 活跃 路 由 。 
<R3> system-view 


[R3] bgp 200 
[R3-bgp] peer 34.1.1.4 as-number 200 
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[R3-bgp] ipv4-family unicast 
[R3-bgp-af-ipv4] peer 34.1.1.4 next-hop-local 
说 明 : 
下 一 跳 可 达 作 为 BGP 选 路 规则 中 第 0 条 规则 ， 如 果 BGP 路 由 的 下 一 跳 IP 地址 不 可 达 ， 
那么 该 BGP 路 由 将 不 会 参与 选 路 。 


关于 下 一 跳 带 来 的 问题 

(1) 下 一 跳 不 可 达 问 题 。 

下 一 跳 是 非 直 连 的 地 址 ， 所 以 路 由 表 一 定 要 保证 能 到 达 这 个 下 一 跳 的 网 络 。 图 6-16 
中 ，R6 收 到 路 由 的 下 一 跳 是 R5 的 卫 地 址 56.1.1.5，R5 上 路 由 的 下 一 跳 是 R1 的 地 址 
12.1.1.1， 在 AS 200 中 要 保证 下 一 跳 可 达 办 法 。 

方法 1: 将 12.1.1.0/24 网 络 引 入 到 AS 200 所 使 用 的 IGP 协议 。 

方法 2: 在 R2 指向 iBGP 邻居 RS 的 方向 上 使 用 命令 peer 56.1.1.5 next-hop-local, 修 
改 R5 上 的 下 一 跳 地 址 为 R2 地 址 23.1.1.2， 这 个 地 址 IGP 可 达 。 

(2) 路 由 黑洞 问题 。 

从 数据 平面 分 析 ， 如 果 数 据 流 访问 目标 BGP 网 络 ，R5 根据 下 一 跳 ， 发 给 R2， 但 中 
间 IGP 路 由 器 R3 和 R4 没有 对 应 的 BGP 路 由 ， 所 以 会 出 现 路 由 黑洞 。 





图 6-16 BGP 的 下 一 跳 带 来 的 问题 

解决 路 由 黑洞 问题 的 办 法 如 下 。 

方法 1: 在 R2 和 R5 间 为 下 一 跳 地 址 所 对 应 的 路 由 创建 LSP 隧道 , 保证 所 有 发 往 下 
一 跳 地 址 的 数据 包 经 中 间 网 络 时 执行 标签 转发 ， 此 种 方法 要 求 开启 MPLS 标签 交换 。 

方法 2: 在 AS 200 中 , 把 R3 和 R4 也 配置 为 BGP 路 由 器 ， 此 时 可 不 再 需要 IGP 协 
议 。 此 种 实现 在 运营 商 网 络 中 使 用 较 多 。 

方法 3: 重新 设计 网 络 拓 朴 ， 把 R2 和 R5 直 连 ， 使 图 6-17 所 示 拓 扑 变 成 图 6-18 所 
示 拓 扑 ， 这样 AS 间 的 数据 访问 流量 将 不 需要 经 过 IGP 路 由 器 ,完全 使 用 BGP 骨干 路 由 
器 访问 ， 越 过 IGP。 





图 6-17 R2 与 R5 无 物理 连接 的 记 GP 邻居 
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图 6-18 R2 与 Rs 有 物理 连接 的 iBGP 邻居 

方法 4: 在 R2 上 将 BGP 路 由 引入 IGP， 保 证 路 由 全 网 可 达 。 此 种 方法 不 建议 使 用 ， 
过 量 的 BGP 路 由 会 加 重 IGP 路 由 器 的 负荷 , 同时 IGP 路 由 也 不 适合 承担 过 大 的 AS 间 数 
据 访 问 流 量 。 可 以 根据 需要 引入 少量 路 由 或 对 引入 的 路 由 做 必要 的 汇总 。 

(3) 负载 分 担 问题 。 

BGP 也 提供 类 似 IGP 的 负载 分 担 技术 , 但 默认 BGP 路 由 仅 能 出 现 一 条 路 由 在 IP 路 
由 表 里 。 如 果 IGP 是 负载 分 担 的 路 径 ， 则 可 以 保证 数据 从 Rs 到 R2 经 过 多 路 径 到 达 R2。 

Local_Pref 属性 

Local_Pref 本 地 优先 级 , 该 属性 为 公认 任意 属性 。 该 属性 仅 在 iBGP 邻居 间 传 递 或 使 
用 ，Local_Pref 属性 仅 在 iBGP 对 等 体 之 间 有 效 ， 不 通告 给 其 他 AS。Local_Pref 属性 可 
以 手动 配置 , 数值 范围 是 0~2”-1, 数值 越 大 , 该 路 由 越 好 。 如 果 路 由 没有 配置 Local_Pref 
属性 ，BGP 选 路 时 将 该 路 由 的 Local Pref 值 按 缺 省 值 100 来 处 理 。 

说 明 : 

缺 省 下 ，BGP 本 地 引入 的 路 由 和 eBGP 学 来 的 路 由 ， 缺 省 Local_Pref 数值 为 100; BGP 
从 iBGP 收 到 的 路 由 ， 更 新 中 含有 Local_Pref 数值 。 


作用 : 在 AS 内 影响 BGP 的 选 路 ， 数 值 越 大 的 路 由 越 优先 。 可 用 来 决定 离开 本 AS 
或 访问 其 他 AS 时 ， 数 据 离开 时 需要 使 用 的 Local_Pref 属性 表明 路 由 器 的 BGP 优先 级 ， 
用 于 判断 流量 离开 AS 时 的 最 佳 路 由 。AS 内 当 BGP 的 设备 通过 不 同 的 启 GP 对 等 体 得 到 
目的 地 址 相同 但 下 一 跳 不 同 的 多 条 路 由 时 ， 将 优先 选择 Local _Pref 属性 值 较 高 的 路 由 。 

示例 : 如 图 6-19 所 示 ， 调 整 Local_Pref 属性 使 得 AS 100 访问 AS 400 的 10.0.0.0/24 
通过 R2 到 达 。 










Local Pref 300 rs 
NLRI 10.0.0.0/24 esas 





AS 400 


10.0.0.0/24 






Local Pref 200 
NLRI 10.0.0.0/24 


图 6-19 Local Pref 属性 
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实现 方法 : 通过 Local_Pref 属性 来 选择 一 个 出 口 路 由 器 ，R1 从 R2 收 到 的 路 由 
10.0.0.0/24 Local_Pref 值 为 300， 从 R3 收 到 的 值 为 200， 如 果 其 他 属性 没 修改 ， 那 么 R1 
将 会 优先 选择 R2 作为 到 达 该 网 络 的 下 一 跳 。 
但 是 本 地 优先 级 只 能 影响 出 站 流量 ， 不 能 影响 入 站 流量 ， 假 设 R6 要 访问 R1， 有 可 
上 会 选择 经 过 R5-R3 再 到 有 1， 这 样 会 形成 一 个 不 对 称 的 路 径 。 


Local_Pref 属性 将 会 在 整个 AS 内 传递 ， 在 本 AS 内 的 所 有 路 由 器 都 将 收 到 该 优先 级 ， 根 
据 BGP 的 比较 规则 ，Local_Pref 属性 位 于 第 二 位 ， 如 果 在 首选 权 相 同 的 情况 下 ， 在 该 图 例 
中 R3 同样 也 会 选择 下 一 跳 为 R2， 将 会 导致 R3 有 一 条 次 优 路 径 。 


MED 属性 

MED (Multi Exit Discriminator) 多 出 口 区 分 符 ， 属 于 可 选 非 过 渡 属 性 ， 也 被 成 为 外 
部 度量 , 与 IGP 的 cost 值 类 似 , MED 是 一 个 4 个 Byte 的 数 , 数值 范围 为 0 一 4294967295。 
多 用 于 判断 流量 进入 AS 时 的 最 佳 路 由 ，MED 值 越 小 ， 路 由 的 优先 级 越 高 。 

MED 与 Local Pref 属性 不 同 ，MED 仅仅 只 会 在 两 个 相 邻 的 AS 之 间 传 递 ， 但 收 到 
此 属性 的 AS 一 方 不 会 再 将 其 通告 给 任何 其 他 第 三 方 AS。 

MED 属性 可 以 手动 配置 ， 如 果 路 由 没有 配置 MED 属性 ，BGP 选 路 时 将 该 路 由 的 
MED 值 按 缺 省 值 0 来 处 理 。 

Local Pref 属性 影响 AS 的 业务 流量 , 而 MED 属性 影响 入 业务 流量 ， 如 图 6-20 所 示 。 
AS 100 的 设备 为 了 影响 AS 200 的 路 由 器 到 达 10.0.0.0/24, 网 络 选择 Rl 进入 到 该 AS 内 。 
RI1 将 BGP 路 由 10.0.0.0/24 传递 给 R3 时 添加 MED 属性 值 并 设置 为 200，R2 将 BGP 路 
由 10.0.0.0/24 传递 给 R4, 添加 MED 属性 值 并 设置 为 300。 在 AS 200 中 的 路 由 器 将 会 比 
较 MED 值 ， 优 先 选 择 较 小 的 值 。 


10.0.0.0/24 





图 6-20 MED 属性 


说 明 : 
路 由 器 默认 只 对 相同 的 AS 传递 过 来 的 路 由 进行 MED 的 比较 , 不 会 比较 不 同 AS 传递 的 
路 由 ， 可 以 使 用 命令 compare-different-as-med 来 使 其 比较 不 同 AS 传递 的 路 由 。 


Community 属性 
团体 属性 分 标准 团体 属性 〈Community) 和 扩展 团体 属性 〈Extended Community )。 
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1. 标准 团体 属性 
Community 团体 为 可 选 过 渡 属 性 , 用 于 标识 具有 相同 特征 的 BGP 路 由 , 使 路 由 策略 

的 应 用 更 加 灵活 ， 同 时 降低 了 维护 管理 的 难度 。 一 个 目标 地 址 作为 一 个 目的 地 团体 的 成 

员 ， 这 些 目的 地 共享 着 一 个 或 者 多 个 特性 ，Community 属性 有 4 个 Byte， 可 自 定义 其 中 

的 数值 ，RFC1997 中 定义 了 前 面 2 个 Byte 为 自治 系统 号 ， 后 面 2 个 Byte 是 管理 上 的 表 

示 符 ， 格 式 为 AA:NN， 可 以 用 十 进 制 和 十 六 进 制 来 表示 该 属性 。 在 团体 属性 值 当中 ，0 

(0x00000000) 一 65535 〈(0x0000FFFF) 和 从 4294901760 (0xFFFF0000) 一 4294967295 

(COxFFFFFFFF) 是 被 保留 的 ， 在 此 预 留 之 外 定义 了 几 种 公认 团体 属性 。 见 表 6-6 所 示 。 


表 6-6 团体 属性 表 
_ 团体 属性 名 称 EE a 


设备 在 收 到 具有 此 属性 的 路 由 后 ， 可 以 向 任何 

Le BGP 对 等 体 发 送 该 路 由 ， 路 由 的 缺 省 属性 
设备 收 到 具有 此 属性 的 路 由 后 ， 将 不 向 任何 
设备 收 到 具有 此 属性 的 路 由 后 ， 将 不 向 AS 外 


设备 收 到 具有 此 属性 的 路 由 后 ， 将 不 向 AS 外 发 
No Export Subconfed | 4294967043(0xFFFFFF03) 送 该 路 由 ， 也 不 向 AS 内 其 他 子 AS 发 布 此 路 由 





除了 公认 的 团体 属性 以 外 ， 还 可 以 定义 私有 的 团体 属性 ， 用 于 特殊 用 途 。RFC1998 
做 了 定义 ， 这 份 RFC 描述 了 在 服务 提供 商 网 络 中 ， 利 用 团体 属性 操控 BGP 路 径 选 择 。 

控制 BGP 路 由 时 ,可 以 利用 团体 属性 的 前 两 个 字 节 作为 AS 号 , 用 后 面 的 2 个 Byte 
定义 与 该 AS 相关 的 数值 ， 比 如 服务 提供 商 的 AS 号 为 100， 这 个 提供 商 可 以 用 100:1 来 
表示 ，100 表示 该 团体 的 特点 服务 提供 商 ， 而 1 表示 一 组 对 等 路 由 器 的 地 址 。 多 条 路 由 
可 以 拥有 相同 的 团体 属性 ， 路 由 器 需要 对 这 些 路 由 实施 策略 时 可 以 对 该 团体 属性 进行 匹 
配 ， 实 际 上 就 是 对 拥有 该 团体 属性 的 路 由 进行 策略 修改 。 一 条 路 由 也 可 以 拥有 多 个 团体 
属性 ， 如 果 发 现 携带 了 多 个 团体 属性 的 路 由 ，BGP 路 由 器 可 以 根据 其 中 的 一 部 分 或 者 全 
部 属性 采取 相应 的 策略 动作 ， 传 递 给 其 他 对 等 体 的 时 候 ，BGP 也 可 以 添加 或 者 修改 团体 
属性 。 

2. 扩展 团体 属性 (Extended Community ) 

扩展 团体 属性 是 对 BGP 团体 属性 的 扩展 ， 主 要 区 别 如 下 。 

长 度 为 8Byte， 并 不 像 标准 的 团体 属性 仅 代 表 数 值 ， 扩 展 团体 属性 由 类 型 字 域 和 数 
值 部 分 构成 ; 1 一 2Byte 的 类 型 字 域 ， 剩 余部 分 是 数值 部 分 ， 如 图 6-21 所 示 。 

例 : Route Target， 前 面 2Byte 代表 类 型 ， 后 面 6Byte 代表 数值 。 扩 展 团体 属性 主要 
在 MPLS VPN 部 分 多 有 涉及 ， 此 处 不 过 多 介绍 。 

Originator_ID 属性 和 Cluster_List 属性 

Originator ID 和 Cluster_List 为 可 选 非 过 渡 属 性 ， 由 路 由 反射 器 〈route-reflector) 使 
用 ， 路 由 反射 器 也 简称 RR，RR 将 在 后 面 章节 进行 详细 描述 ， 这 两 个 属性 是 专 为 RR 开 
发 的 ， 用 来 在 AS 内 防止 环 路 。 

Originator_ID 属性 值 是 AS 内 第 一 台 通 告 该 路 由 的 BGP 路 由 器 的 Router ID， 该 值 
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由 RR 添加 到 路 由 更 新 中 , 并 随 路 由 在 AS 内 传递 , 直至 离开 AS 时 被 剥离 掉 。Originator ID 
属性 用 来 在 Cluster《〈 集 群 ) 内 防 环 ， 如 果 路 由 器 看 到 接收 到 的 路 由 中 的 Originator ID 等 
于 自己 的 BGP Router ID， 就 说 明 存在 环 路 ， 该 路 由 将 会 被 丢弃 掉 。 

ifset, this isa 


transitive extended 
community 


how the community | community type 
type was assigned a 
some extended communities 
| have sub-types 


rm sm om | 
| a | 


= dd 
1 octet 1 octet 6 or 7 octets 


图 6-21 扩展 团体 属性 的 结构 


Cluster_List 是 路 由 经 过 RR 反射 时 由 RR 添加 的 一 个 集群 列表 ， 记 录 路 由 经 过 的 
Cluster_ID (集群 ID)。 如 果 路 由 反射 器 在 接收 到 路 由 的 Cluster list 中 发 现 了 自己 的 集群 
ID， 就 说 明 存 在 环 路 ， 将 路 由 丢弃 ，Cluster_List 属性 用 于 集群 间 防 止 路 由 环 路 。 

PrefVal 属性 

PrefVal 是 Preferred-Value 的 简写 ， 区 别 于 前 面 介 绍 的 其 他 属性 ， 首 选 权 值 是 华为 设 
备 内 部 分 配给 路 由 的 权 值 ， 它 并 不 是 在 路 由 更 新 中 可 传递 的 BGP 标准 属性 。 

任何 出 现在 华为 BGP 表 中 的 路 由 都 会 被 分 配 Prefval， 它 只 在 一 台 路 由 器 内 部 使 用 ， 
不 会 传递 给 其 他 的 路 由 器 ， 这 个 值 为 0 一 65535 范围 的 一 个 数 ， 值 越 大 越 优 先 ， 缺 省 情况 
下 所 有 路 由 的 首选 权 值 为 0。 可 以 为 独立 的 路 由 或 从 一 个 特定 的 邻居 学 习 到 的 路 由 设置 
该 值 ， 用 来 影响 路 由 器 的 选 路 。 该 属性 在 本 地 有 意义 ， 作 用 效果 也 仅 影 响 本 路 由 器 的 选 
路 ， 无 法 影响 其 他 路 由 器 的 选 路 。 

Aggregator 和 Atomic Aggregate 

Atomic-Aggregate 属性 : 属于 公认 任意 属性 ， 主 要 用 于 路 由 聚合 时 ， 如 果 聚 合 路 由 
将 所 有 明细 路 由 抑制 了 ， 就 会 为 聚合 路 由 生成 该 属性 。 使 用 该 属性 也 有 一 种 警告 作用 ， 
用 于 告知 对 等 体 ， 原 始 的 明细 路 由 AS_PATH 出 现 了 丢失 。 

Aggregator 属性 : 属于 可 选 过 渡 属 性 ， 该 属性 作为 Atomic-Aggregate 的 补充 ， 指 明 
路 由 信息 是 在 何 处 出 现 了 丢失 ， 该 属性 包含 发 起 聚合 路 由 的 AS 号 及 生成 聚合 路 由 的 
BGP 通告 者 的 RouterID (又 称 为 Aggregator ID )。 


6.2.3 BGP 工作 原理 


BGP 得 益 于 比较 灵活 简单 的 工作 原理 ， 路 由 信息 在 BGP 对 等 体 间 相互 交换 更 新 消 
息 ，BGP 对 更 新 消息 进行 路 由 实施 策略 的 修改 或 者 过 滤 。 在 接收 或 者 发 送 更 新 消息 时 都 
能 操作 ， 如 果 BGP 路 由 表 中 存在 多 条 到 达 相同 目的 的 路 由 ， 那 么 BGP 不 会 将 所 有 的 条 
目 全 部 传递 出 去 , 而 是 选择 其 中 最 优 的 一 条 发 送 。 BGP 协议 维护 着 邻居 表 、BGP 路 由 表 ， 
邻居 表 是 通过 发 送 Open 消息 来 建立 的 ， 维 护 着 所 有 对 等 体 的 邻居 。BGP 路 由 表 是 通过 
BGP 协议 学 习 的 全 部 路 由 (包含 到 达 同 一 目的 多 条 路 由 )， 而 在 全 局 有 一 张 IP 路 由 表 是 
存放 所 有 协议 学 习 到 的 最 佳 路 由 ， 包 括 BGP 协议 。 而 从 BGP 协议 学 到 的 路 由 若 想 进入 
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到 IP 路 由 表 需 要 经 过 一 系列 的 决策 ， 将 选择 决策 胜利 的 路 由 放 进 IP 路 由 表 中 。 下 面 将 
会 介绍 BGP 的 信息 库 以 及 决策 的 全 过 程 。 


BGP 路 由 信息 库 
BGP 路 由 信息 库 用 来 存放 用 于 决策 的 BGP 路 由 ， 路 由 信息 库 包含 3 个 部 分 。 
(1) Adj-RIB-In 这 些 信息 来 自 对 等 体 接收 到 的 更 新 ， 但 是 没有 经 过 处 理 过 的 路 由 ， 


存储 在 该 信息 库 中 。 
display bgp routing-table peer ipv4-address { received-routes } 


说 明 : 
用 于 查看 从 对 等 体 接收 的 路 由 信息 。 
(2) Loc-RIB 经 过 BGP 的 输入 策略 引擎 ， 运 行 策略 之 后 所 存储 的 信息 库 ， 用 于 本 地 
的 路 径 选 择 。 


display bgp routing-table 
说 明 : 
用 于 查看 本 地 路 由 信息 。 
(3) Adj-RIB-Out 经 过 BGP 的 输出 策略 引擎 ， 运 行 策略 之 后 所 存储 的 信息 库 ， 用 于 
通告 给 其 他 的 对 等 体 。 


display bgp routing-table peer ipv4-address { advertised-routes} 


说 明 : 
用 于 查看 向 对 等 体 发 布 的 路 由 信息 。 


BGP 路 由 信息 决策 过 程 
BGP 决策 过 程 是 指 对 Adj-RIB-In 中 的 路 由 使 用 本 地 策略 , 同时 将 选 定 过 的 或 者 修改 
过 的 路 由 放 到 Loc-RIB 中 和 Adj-RIB-Out 中 。 过 程 图 如 图 6-22 所 示 ， 这 个 过 程 分 为 以 下 


几 个 步骤 。 





从 对 等 体 来 的 
更 新 信息 


只 





Adj-RIB-In 









输入 策略 引擎 





输出 策略 引擎 


向 对 等 体 发 送 的 
更 新 信息 





Adj-RIB-Out 


图 6-22 路 由 信息 决策 过 程 图 
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第 1 步 : 当 从 对 等 体 接收 到 更 新 数据 包 时 ， 路 由 器 会 把 这 些 更 新 数据 包 存 储 到 路 由 选 
择 信 息 库 (Routing Information Base，RIB) 中 ， 并 指明 是 来 自 哪 个 对 等 体 的 (Adj-RIB-In)。 

第 2 步 : 这 些 更 新 数据 包 经 过 BGP 输入 策略 引擎 修改 属性 或 者 路 由 的 过 滤 。 

第 3 步 : 路 由 器 将 会 执行 路 径 选 择 算法 ， 来 为 每 一 条 前 级 确定 最 佳 路 径 。 

第 4 步 : 得 出 的 最 佳 路 径 被 存储 到 本 地 BGP RIB (Loc-RIB) 中 ， 然 后 将 Loc-RIB 
的 路 由 加 载 到 IP-RIB 中 ， 用 于 路 由 选择 。 

第 5 步 : Loc-RIB 中 的 内 容 在 被 通告 给 其 他 对 等 体 之 前 ， 必 须 通 过 输出 策略 引擎 。 
只 有 那些 成 功 通过 输出 策略 引擎 的 路 由 ， 才 会 被 安装 到 输出 RIB (Adj-RIB-Out) 中 。 

BGP 选 路 规则 

BGP 相 比 IGP 最 大 的 优势 在 于 路 径 的 选择 策略 非常 丰富 ， 通 过 调整 BGP 的 路 由 属 
性 来 决定 选 路 。 在 使 用 这 些 路 由 属性 的 时 候 应 该 考虑 顺序 和 规则 ， 尤 其 是 一 台 路 由 器 到 
达 目 标 有 多 条 路 径 的 时 候 ，BGP 需要 根据 下 面 的 选 路 规则 来 优先 选 出 一 条 最 佳 路 径 。 

BGP 选 路 的 “11 条 规则 ”如 下 。 

(1) 优选 协议 首选 值 (Prefval) 数值 最 高 的 路 由 。 

说 明 : 

协议 首选 值 (PrefVal) 是 华为 设备 的 特有 属性 ， 也 在 选 路 规则 中 位 列 第 一 位 ， 因 此 最 
优先 比较 ， 该 属性 仅 针 对 本 路 由 器 有 意义 ， 不 会 传递 给 其 他 设备 。 协 议 首 选 值 越 大 越 好 ， 
默认 首选 值 为 0。 


(2) 优选 本 地 优先 级 〈Local Pref) 数值 最 高 的 路 由 。 


说 明 : 

本 地 优先 级 属性 在 整个 AS 内 传递 ， 但 不 会 传递 到 AS 之 外 ， 值 越 大 越 优 先 ， 一 般 用 作 
AS 内 路 由 器 选择 一 个 最 优 出 只 去 往外 部 。 如 果 路 由 没有 设置 本 地 优先 级 ，BGP 选 路 时 将 
该 路 由 按 缺 省 的 本 地 优先 级 100 来 处 理 。 


(3) 本 地 起 源 优先 顺序 依次 为 : 手动 聚合 路 由 一 自动 聚合 路 由 一 @network 命 
令 通告 的 路 由 一 @import-route 命令 引入 的 路 由 一 名 从 对 等 体 学 习 的 路 由 。 

说 明 : 

规则 3 指 的 是 当前 路 由 器 产生 的 BGP 路 由 中 , 本 地 产生 的 路 由 要 优 于 邻居 学 来 的 路 由 ， 
本 地 产生 的 路 由 分 本 地 生成 的 聚合 路 由 和 IP 路 由 注入 的 路 由 。 其 中 ， 聚 合 路 由 要 优 于 不 
聚合 的 路 由 ， 而 聚合 可 以 分 为 手动 聚合 和 自动 聚合 ， 且 前 者 要 优 于 后 者 ， 通 过 network 命 
令 通 告 进 BGP 的 路 由 要 优 于 通过 import 方式 引入 进 BGP 的 路 由 ， 其 次 是 从 邻居 学 习 到 的 
路 由 。BGP 中 的 路 由 无 非 就 是 由 以 上 几 种 产生 ， 如 果 同 一 个 目标 前 组 的 路 由 同时 通过 以 上 
方式 进入 到 BGP， 那 么 将 根据 上 述 优先 顺序 进行 裁决 。 


(4) 优选 AS 路 径 (AS_PATH) 最 短 的 路 由 。 
说 明 : 
AS_PATH 属性 是 记录 达到 目标 网 络 的 AS 路 径 列表 ， 类 似 距 离 失 量 协议 中 的 hop 概念 ， 
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AS_PATH 长 度 短 的 路 由 优先 。 

(5) 依次 优选 Origin 类 型 为 IGP、EGP、incomplete 的 路 由 。 

说 明 : 

origin 为 BGP 的 起 源 属性 ， 指 的 是 BGP 路 由 的 起 源 ， 成 为 BGP 路 由 都 会 携带 一 个 origin 
属性 。 如 该 路 由 是 通过 network 的 方式 产生 的 路 由 ， 那 么 origin 类 型 为 IGP (标识 为 )) ， 如 
果 是 通过 EGP 协议 学 习 到 路 由 ,origin 类 型 为 EGP (标识 为 e)， 如 果 将 外 部 路 由 引入 进 BGP 
的 路 由 ，origin 类 型 为 incomplete (标识 为 ? ) 。 优 先 级 顺序 为 j>e>? 。 


演示 : 

很 多 读者 易 把 第 三 条 规则 和 第 五 条 规则 和 弄 混淆 ， 规 则 3 比较 的 是 路 由 的 注入 位 置 (本 
地 注入 的 优 于 邻居 学 来 的 )， 用 于 在 本 地 产生 的 多 条 路 由 中 选 出 最 优 的 路 由 来 发 给 它 的 邻 
居 ; 规则 5 比较 的 是 路 由 的 注入 方式 (network 或 import) 。 起 源 代 码 则 用 于 从 不 同 的 邻居 
收 到 多 条 一 样 的 路 由 中 选择 出 一 条 最 优 的 。 


(6) 优选 MED (Multi Exit Discriminator) 值 最 低 的 路 由 。 


说 明 : 

MED 默认 比较 来 自 相同 邻居 的 路 由 的 MED 值 ， 数值 越 小 的 路 由 越 优先 。 如 果 是 来 自 不 
同 邻 居 AS 的 路 由 ，MED 不 参与 比较 ， 除 非 开启 compare-different-as-med 命令 ， 才 可 以 在 来 
自 不 同 邻居 AS 的 路 由 间 比 较 MED。 


(7) 依次 优选 eBGP 路 由 、iBGP 路 由 。 

说 明 : 

如 果 路 由 分 别 通 过 eBGP 和 iBGP 同时 学 习 ， 在 其 他 规则 都 一 样 的 情况 下 ， 会 优先 选择 
eBGP 对 等 体 。 理 由 很 简单 ，eBGP 连接 外 部 As， 而 iBGP 连接 内 部 的 AS。 路 由 器 认为 既然 


通过 eBGP 学 到 该 路 由 必然 是 来 自 外 部 的 As， 因 此 直接 选择 eBGP 对 等 体 到 达 外 部 比 穿越 
整个 AS 再 到 达 外 部 要 更 加 优先 。 


(8) 优选 到 BGP 下 一 跳 IGP 度量 值 (Metric) 最 小 的 路 由 。 


说 明 : 
BGP 的 路 由 下 一 跳 地 址 是 通过 IGP 协议 学 习 到 的 ， 根 据 路 由 表 ， 计 算 到 下 一 跳 的 度量 
值 ， 越 小 的 越 优先 。 


(9) 优选 Cluster_ List 最 短 的 路 由 。 


说 明 : 

1; Cluster_List 为 路 由 反射 器 中 的 属性 ， 是 由 路 由 反射 器 来 添加 的 ， 将 Cluster_ID 添加 到 
Cluster_List 中 , 用 于 记录 被 反射 的 BGP 路 由 在 AS 内 经 过 的 Cluster 路 径 。 类 似 AS_PATH 属性 ， 
Cluster_List 越 短 的 路 由 越 优 先 。 

2: 如 果 参 与 比较 的 路 由 没有 Cluster_ List， 则 越过 规则 9， 直 接 比 较 后 面 的 规则 。 如 果 
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某 条 路 由 没有 Cluster_ List， 而 其 他 路 由 有 Cluster_List， 则 没有 Cluster_List 属性 的 路 由 优先 。 
(10) 优选 Router ID 最 小 的 设备 发 布 的 路 由 。 
说 明 : 
Router_ID 最 小 的 邻居 通告 的 路 由 最 优先 。 
(1) 如 果 路 由 携带 Originator_ID 属性 ， 则 选 路 过 程 中 将 比较 Originator_ID 的 大 小 ， 不 再 


比较 Router ID。 其 中 ，Originator_ID 最 小 的 路 由 最 优 。 
(2) 如 果 参 与 比较 的 路 由 Originator_ID 一 样 ， 也 不 再 比较 Router ID， 直接 开 始 规则 11。 


(11) 优选 从 具有 最 小 IP Address 的 对 等 体 学 来 的 路 由 。 


说 明 : 
最 后 一 步 将 会 比较 邻居 的 IP 地 址 ， 最 小 的 最 优先 。 


BGP 选 路 规则 记忆 小 技巧 : 

由 于 BGP 的 选 路 规则 是 按照 顺序 从 上 往 下 依次 比较 的 , 直到 比较 到 邻居 的 他 地 址 。 
从 以 上 规则 可 以 看 出 ，BGP 协议 在 选择 路 径 时 必然 能 够 选 出 一 条 最 优 的 。 当 然 大 家 要 想 
记 住 这 些 选 路 规则 也 的 确 有 些 困 难 ， 尤 其 是 按照 顺序 的 方式 ， 一 旦 顺序 错 了 ， 可 能 调整 
BGP 的 策略 不 会 生效 。 

这 里 来 介绍 一 个 实用 技巧 ， 通 过 联想 记忆 法 来 记 住 这 些 规 则 。 将 前 面 八 个 规则 以 记 
住 首 个 字母 的 方式 ， 这 样 就 会 将 本 规则 记 住 了 。 例 如 第 一 个 为 首选 权 (PrefVal 首选 权 )， 
可 以 记 住 P， 第 二 个 (Local_Pref 本 地 优先 级 ) 可 以 记 住 L， 第 三 个 是 本 地 产生 的 路 由 ， 
可 以 记 住 L。 以 此 类 推 : 第 四 个 用 A 代表 AS_PATH， 第 五 个 用 O 代表 origin， 第 六 个 用 
M 代表 MED， 第 七 个 用 EE 代表 eBGP， 第 八 个 用 N 代表 下 一 跳 IGP 的 路 由 。 将 前 面 作 
条 规则 组 成 一 个 单词 PLLAOMEN， 当 然 也 并 没有 这 个 英文 单词 ， 如 果 我 们 将 其 做 一 个 
分 解 ， 使 用 拼音 加 英文 的 方式 ， 那 么 大 家 将 会 记忆 非常 深刻 : PL 漂亮 ) LAO ( 老 ) 
MEN (男人 )。“ 漂 亮 老 男人 ”相信 各 位 读者 想到 这 个 就 能 够 轻松 地 记忆 出 前 面 8 个 规 
则 了 。 

BGP 的 负载 分 担 

在 大 型 网 路 中 , 到 达 同 一 目的 地 通常 会 存在 多 条 有 效 路 由 , 但 是 BGP 只 将 最 优 路 由 
发 布 给 对 等 体 , 这 一 特点 往往 会 造成 很 多 流量 负载 不 均衡 的 情况 。 通 过 配置 BGP 负载 分 
担 ， 可 以 使 流量 负载 均衡 ， 减 少 网 络 拥塞 。 

一 般 情 况 下 ， 只 有 “BGP 选择 路 由 的 策略 ”所 描述 的 前 8 个 属性 完全 相同 ， 且 
AS_PATH 属性 也 相同 时 ，BGP 路 由 之 间 才 能 相互 等 价 ， 实 现 BGP 的 负载 分 担 。 但 路 由 
负载 分 担 的 规则 也 可 以 通过 配置 来 改变 ， 如 忽略 路 由 AS_PATH 属性 的 比较 ， 但 这 些 配 
置 需要 确保 不 会 引起 路 由 环 路 。 

BGP 可 实现 2 种 形式 的 负载 分 担 一 一 BGP 路 由 的 负载 分 担 和 下 一 跳 路 由 的 负载 
分 担 。 

(1) 多 条 不 同 下 一 跳 的 BGP 路 由 同时 出 现在 IP 路 由 表 中 。 

BGP 默认 仅 下 发 一 条 最 好 的 BGP 路 由 到 IP 路 由 表 。 但 这 种 行为 可 以 通过 maximum 
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load-balancing [eBGP | iBGP ] number 命令 来 配置 BGP 负载 分 担 的 最 大 等 价 路 由 条 数 。 
BGP 可 以 把 “ 选 路 规则 ”中 ， 前 8 条 规则 都 一 样 的 多 条 路 由 同时 下 发 到 IP 路 由 表 中 。 
负载 分 担 的 条 件 是 :“BGP 选择 路 由 的 策略 ”的 第 1 至 8 条 规则 中 ， 需 要 比较 的 属性 要 
“完全 相同 ” 满足 这 个 条 件 的 多 条 路 由 ， 在 maximum load-balancing 开启 后 ， 可 下 发 多 
条 路 由 到 路 由 表 。 缺 省 情况 下 ，BGP 负载 分 担 的 最 大 等 价 路 由 条 数 为 1， 即 不 进行 负载 
分 担 。 

如 果 满 足 负载 分 担 条 件 的 BGP 路 由 数 大 于 定义 的 BGP 负载 分 担 规格 时 ， 按 如 下 顺 

。 ”优选 Cluster List 最 短 的 。 

。 优选 Router ID 最 小 的 路 由 器 发 布 的 ; 如果 路 由 携带 Originator ID 属性 ， 选 路 

过 程 中 将 比较 Originator_ ID 的 大 小 (不 再 比较 Router ID ), 并 优选 Originator ID 
最 小 的 路 由 。 

。 比较 对 等 体 的 瑟 地 址 ， 优 选 从 具有 较 小 IP 地 址 的 对 等 体 学 来 的 路 由 。 

在 公 网 中 到 达 同 一 目的 地 的 路 由 形成 负载 分 担 时 ， 系 统 会 首先 判断 最 优 路 由 的 类 
型 。 若 最 优 路 由 为 iBGP 路 由 ， 则 只 是 iBGP 路 由 形成 负载 分 担 ; 若 最 优 路 由 为 eBGP 路 
由 ， 则 只 是 eBGP 路 由 形成 负载 分 担 。 即 公 网 中 到 达 同 一 目的 地 的 iBGP 路 由 和 eBGP 
路 由 不 能 形成 负载 分 担 。 负 载 分 担 只 对 本 设备 有 效 ， 但 是 本 设备 还 是 会 根据 选 路 原则 选 
出 最 优 路 由 发 给 其 他 对 等 体 ， 但 在 路 由 表 里 是 显示 负载 分 担 的 。 

缺 省 情况 下 ， 路 由 在 形成 负载 分 担 时 会 比较 路 由 的 AS_PATH 属性 ， 而 BGP 只 天 
AS_PATH 属性 完全 相同 的 路 由 进行 负载 分 担 , BGP 负载 分 担 特性 同样 适用 于 联盟 内 部 
的 自治 系统 之 间 。 配 置 路 由 在 形成 负载 分 担 时 不 比较 路 由 的 AS_PATH 属性 , 可 以 通过 
命令 load-balancing as-path-ignore 来 实现 , 但 是 该 方式 可 能 会 引起 路 由 环 路 ， 需 谨慎 使 
用 。 

BGP 由 于 本 身 并 没有 路 由 算法 , 不 能 根据 一 个 明确 的 度量 值 决 定 是 否 对 路 由 进行 负 
载 分 担 。 但 BGP 有 很 多 路 由 属性 ， 这 些 属性 在 BGP 选 路 策略 中 的 优先 顺序 是 不 同 的 。 
对 BGP 负载 分 担 的 处 理 规 则 是 加 入 到 这 些 选 路 策略 中 的 , 即 在 所 有 高 优先 级 路 由 属性 相 
同 的 情况 下 ，BGP 路 由 属性 相同 的 情况 下 ，BGP 根据 所 配置 的 最 大 负载 分 担 的 路 由 条 数 
进行 负载 分 担 。 

示例 : 如 图 6-23 所 示 ，AS 254 通告 了 两 条 BGP 路 由 100.1.1.0/24、200.1.1.0/24， 由 
R5/R6 通告 进 AS 100，R1 到 AS 200 有 2 条 eBGP 路 由 ， 通 过 R5 和 R6 都 可 以 到 达 。 

这 两 条 BGP 路 由 默认 仅 一 条 路 由 进入 R1 的 人 P 路 由 表 。 


<R1>display ip routing-table 
Route Flags: R-relay, D-download to fib 


Routing Tables: Public 


Destinations : 50 Routes : 54 
-Destination/Mask Proto Pre Cost Flags NextHop Interface 
100.1.0.0/24 eBGP 255 0) RD ,5:5.$:5 GigabitEthernet0/0/1 
200.1.0.0/24 eBGP 255 0 RD GigabitEthermet0/0/1 
其 他 路 由 省 略 …… 
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100.1.1.0/24 
200.1.1.0/24 





图 6-23 eBGP 负载 分 担 


在 Rl 的 BGP 进程 中 负载 分 担 命令 ， maximum load-balancing eBGP 2。 


bgp 100 
ipy4-family unicast ~ 
maximum load-balancing ebgp 2 
再 次 查看 IP 路 由 表 ， 到 达 AS 254 的 两 条 路 由 各 自 有 两 个 下 一 跳 ， 同时 进入 到 全 路 
由 表 。 
<R1>display ip routing-table 
Route Flags: R-relay, D-download to fib 
ds eS nv |- 直 1 站 全 人 全 CT NI 症 - 和 人 本人 人 让 开 a 
Routing Tables: Public 
Destinations : 50 Routes :54 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
100.1.0.0/24 eBGP 255 0 RD 4355 GigabitEthermetO/0/1 
eBGP 255 0 RD 6.6.6.6 GigabitEthernet0/0/0 
200.1.0.0/24 eBGP 2 0 RD $85:5.5 GigabitEthemetOQ/0/1 
eaBGP -255,00 RD 6.6.6.6 GigabitEthernet0/0/0 
其 他 路 由 省 略 ……: 
RI1 的 BGP 路 由 表 : 
<R1>display bgp routing-table _ 


BGP Local router ID is 29.29.15.1 

Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 

Total Number of Routes: 9 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 100.1.1.0/24 5.5.5.5 0 200 254i 
» 6.6.6.6 0 200 254i 
*> 200.1.1.0/24 $5;5,4 0 200 254i 
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村 6.6.6.6 0 200 254i 
其 他 路 由 省 略 …… 


(2) 下 一 跳 路 由 的 负载 分 担 

BGP 区 别 于 IGP 协议 的 一 点 是 其 下 一 跳 地 址 可 以 是 非 直 连 的 路 由 器 的 接口 IP。BGP 
在 AS 内 的 BGP 邻居 间 通 告 路 由 时 ,下 一 跳 保持 不 变 , 数据 流量 按 路 由 学 来 的 方向 转发 
数据 。 非 直 连 的 下 一 跳 在 路 由 器 上 会 执行 “迭代 路 由 ”进行 查找 路 由 表 ，BGP 依赖 于 下 
一 跳 路 由 来 转发 数据 ， 所 以 如 果 下 一 跳 地 址 所 对 应 路 由 在 卫 路 由 表 中 是 负载 分 担 的 ， 则 
此 处 同样 算得 上 BGP 的 负载 分 担 。 这 种 负载 分 担 的 实现 其 实 和 BGP 没有 直接 的 关系 ， 
完全 得 益 于 IGP 协议 路 由 中 ECMP (Equal Cost Multiple Path)。IGP 根据 本 身 的 路 由 算 
法 计算 路 由 的 度量 值 (Metric)， 在 度量 值 相等 的 路 由 间 进 行 负载 分 担 ， 实际 是 IGP 的 负 
载 分 担 。 

示例 : 如 图 6-24 所 示 ，R6 通告 了 一 条 BGP 路 由 100.1.1.0/24，R5 访问 该 网 段 ， 数 
据 流 经 过 Rl1 时 会 进行 负载 分 担 ， 由 于 R1 与 R4 建立 iBGP 邻居 ， 而 R1 的 BGP 表 中 到 
达 100.1.1.0 网 段 的 下 一 跳 为 R4 的 10.1.4.4 (loopback0)， 而 AS 100 内 部 运行 的 是 OSPF 
协议 ，R1 到 达 目 标 网 段 将 会 迭代 到 R4 的 10.1.4.4， 而 到 达 R4 则 有 两 条 等 价 路 径 。 





图 6-24 下 一 跳 路 由 的 负载 分 担 


查看 Rl1 的 BGP 路 由 表 ， 下 一 跳 地 址 为 10.1.4.4。 
<R1>display bgp routing-table 
BGP Local router ID is 10.1.1.1 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 


Total Number of Routes: 1 
Network NextHop MED LocPrf PrefVal Path/Ogn 
*>i 100.1.1.0/24 10.1.4.4 0 100 0 456i 
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由 于 Rl 的 IP 路 由 表 中 到 达 10.1.4.4 有 两 条 等 价 路 径 , 因此 该 BGP 路 由 也 会 有 两 个 
下 一 跳 。 
<R1>display ip routing-table 


Route Flags: R-relay, D-download to fib 


i 





Routing Tables: Public 
Destinations : 18 Routes : 19 


Destination/Mask Proto Pre Cost Flags NextHop Interface 
10.1.4.4/32 OSPF 0 se D 10.1.13.3 GigabitEthernet0/0/2 
OSPF bo Dao GigabitEthernet0/0/1 
100.1.1.0/24 iBGP 255 0 RD 10.1.4.4 GigabitEthernet0/0/2 
让 人 PP 多 1 3235 夫 RD 10.1.4.4 GigabitEthernet0/0/1 
其 他 路 由 省 略 …*… 
BGP 同步 


在 一 个 AS 内 ，BGP 的 邻居 可 以 跨越 路 由 器 来 建立 ， 但 是 有 可 能 造成 路 由 黑洞 ， 如 
6-25 所 示 。R1 与 R2、R4 与 R5 分 别 建立 eBGP 邻居 ， 在 AS 200 中 ，R2 仅仅 与 R4 
建立 BGP 邻居 ，R3 没有 配置 BGP。 假 设 R1 通告 一 条 路 由 199.100.20.0/24 到 BGP， 并 
且 传 递 给 R2，R2 通过 iBGP 邻居 通告 给 R4， 在 同步 未 开启 的 情况 下 ，R4 可 以 将 该 路 
由 通告 给 eBGP 邻居 R5。 此 时 如 果 R5 要 转发 数据 流 到 该 网 段 ， 数 据 包 发 送 给 R4，R4 
由 于 从 BGP 中 学 习 到 该 路 由 , 查找 到 达 该 网 段 的 下 一 跳 地 址 为 R2, 但 是 R2 并 非 直 连 ， 
需要 再 次 查找 IGP 路 由 表 ， 到 达 R2 下 一 跳 为 R3。 数 据 包 被 送 到 R3， 但 是 R3 没有 运 
行 BGP， 并 且 在 IGP 协议 中 也 没有 学 习 到 该 路 由 ， 数 据 包 将 会 被 R3 丢弃 掉 ， 从 而 形 
成 黑洞 。 





图 6-25 ”BGP 的 同步 


BGP 同步 可 以 避免 不 必要 的 黑洞 ， 所 谓 BGP 同步 是 指 BGP 路 由 器 必须 与 IGP 同步 ， 
AS 内 的 路 由 器 不 仅 要 通过 BGP 学 习 到 此 路 由 ， 而 且 要 从 IGP 协议 学 习 到 该 路 由 才 会 将 
该 路 由 通告 给 eBGP 邻居 。 因 为 只 有 通过 IGP 学 到 该 路 由 ，AS 内 的 路 由 器 才 会 认为 该 
路 由 是 在 AS 内 完全 可 达 的 。 如 果 同 步 开启 ，R2 将 路 由 传递 给 R4， 而 R4 从 记 GP 对 等 
体 学 到 了 该 路 由 ， 在 把 这 条 路 由 通告 给 eBGP 邻居 之 前 ， 该 路 由 器 需要 验证 内 部 的 可 达 
性 。 首 先 检 查 该 目标 前 级 ， 了 解 通 往 下 一 跳 路 由 器 的 路 由 是 否 存在 ;然后 检查 IGP 中 是 
否 存 在 该 目标 前 级 。 只 有 满足 以 上 条 件 ，R4 才 会 将 路 由 通告 给 eBGP 邻居 ， 反 之 将 不 会 
通告 该 路 由 。 
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通常 情况 下 ， 要 想 让 IGP 协议 同时 学 习 到 BGP 中 的 路 由 ， 就 需要 使 用 路 由 引入 ， 
但 是 如 果 将 BGP 引入 到 IGP 中 将 会 给 AS 内 路 由 器 带 来 极 大 的 开销 , 这 是 非常 危险 的 事 
情 。 众 所 周知 ，BGP 的 路 由 数量 极其 庞大 ， 而 内 部 的 路 由 器 不 足以 承担 如 此 重 的 负担 ， 
将 会 直接 影响 设备 的 性 能 ， 甚 至 可 能 导致 设备 宕 机 。 由 于 无 法 保证 每 条 路 由 都 采用 最 短 
路 径 ， 因 此 也 可 能 产生 次 优 的 路 径 或 者 环 路 。 

当然 ， 在 华为 VRP 平台 中 ，BGP 的 同步 是 默认 关闭 的 ， 且 不 能 够 手动 开启 。 那 么 
解决 BGP 的 路 由 黑洞 问题 有 两 种 方法 : 

第 一 ， 建立 iBGP 全 互联 连接 ， 使 每 台 路 由 器 都 能 收 到 路 由 ， 保 证 AS 内 部 的 可 
达 性 ; 

第 二 ， 使 用 MPLS VPN 技术 来 解决 ， 具 体 细节 将 在 MPLS 章节 进行 讨论 。 


6.2.4 BGP 路 由 及 默认 路 由 


BGP 路 由 的 注入 

出 现在 BGP 表 中 的 路 由 ， 主 要 通过 以 下 几 种 方式 进入 路 由 表 。 

(1) 通过 network 方式 注入 来 自 IGP 的 路 由 。 

配置 示例 : 

network { ipv4-address [ mask | mask-length | | ipv6-address prefix-length } [ route-policy route-policy-name ] 

说 明 ; 

BGP 协议 自身 是 不 能 发 现 路 由 的 ， 最 常见 的 方式 是 通过 network 来 注入 ， 将 IP 路 由 表 
中 存在 的 路 由 注入 进 BGP， 注 入 路 由 时 要 注意 该 路 由 的 前 级 和 掩 码 要 与 路 由 表 中 完全 一 
致 ， 否 则 注入 不 成 功 。 通 过 network 注入 的 路 由 ，origin 属性 为 igp。 


(2) 通过 import-route 方式 引入 外 部 路 由 。 

配置 示例 : 

import-route protocol [ process-id ] [ med med | route-policy route-policy-name ] 

说 明 : 

该 方式 可 以 将 IGP 的 路 由 引入 进 BGP， 也 可 以 引入 直 连 、 静 态 路 由 。 但 是 缺 省 路 由 不 
能 引入 进 BGP。 通 过 将 外 部 路 由 引入 进 BGP 的 路 由 ，origin 属性 为 incomplete。 


(3) 通过 aggregate 进行 聚合 的 路 由 。 
配置 示例 : 
aggregate ipv4-address { mask | mask-length } [ as-set | attribute-policy route-policy-name! | detail-suppressed | origin-policy 
route-policy-name2 | suppress-policy route-policy-name3 ] 
说 明 : 
路 由 聚合 分 为 手动 聚合 和 自动 聚合 ，aggregate 命令 用 于 手动 聚合 ， 手 动 聚 合用 于 将 BGP 
的 路 由 进行 聚合 ， 如 果 聚 合 路 由 中 所 包含 的 明细 路 由 的 origin 属性 各 不 相同 ， 那 么 聚合 路 由 
的 origin 属性 按照 优先 级 incomplete>egp>igp, 且 聚 合 路 由 会 继承 原 明细 路 由 中 的 所 有 团体 属性 。 


路 由 聚合 
路 由 聚合 对 于 路 由 协议 来 说 非常 重要 , 尤其 是 像 BGP 这 种 大 型 的 路 由 协议 , 在 当前 
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的 互联 网 有 着 相当 庞大 数量 的 路 由 条 目 ， 如 果 不 进 行 聚合 ， 路 由 条 目 将 会 更 多 ， 并 且 一 
且 网 络 震荡 ， 也 会 带 来 极 大 的 影响 。 同 样 ， 每 台 路 由 器 也 需要 大 量 的 内 存 来 存储 这 些 路 
由 条 目 ， 给 设备 造成 极 大 的 负担 。 因 此 将 路 由 进行 聚合 可 以 减少 路 由 条 目的 数量 ， 降 低 
网 络 的 不 稳定 因素 所 带 来 的 影响 ， 减 轻 设备 的 负担 。 

BGP 路 由 聚合 分 为 手动 聚合 和 自动 聚合 两 种 ，aggregate 命令 实现 手动 聚合 。 该 命令 
可 以 对 BGP 本 地 路 由 表 中 的 路 由 进行 聚合 。 手 动 聚合 后 的 路 由 优先 级 高 于 自动 聚合 ,如 
果 聚 合 路 由 中 所 包含 的 具体 路 由 的 origin 属性 不 同 ， 那 么 聚合 路 由 的 origin 属性 按照 优 
先 级 以 incomplete > egp > igp 为 准 , 聚合 路 由 会 携带 原来 所 有 具体 的 路 由 中 的 团体 属性 。 

自动 聚合 

BGP 的 自动 聚合 是 针对 外 部 引进 的 路 由 进行 有 类 的 聚合 ， 但 不 能 对 network 方式 注 
入 的 路 由 进行 自动 聚合 。 在 BGP 进程 中 使 用 命令 summary automatic 命令 实现 。 缺 省 情 
况 下 ， 自 动 聚 合 未 启用 。 

例如 : 将 外 部 引入 的 路 由 172.16.1.0/24、172.16.2.0/24、172.16.3.0/24 进行 自动 聚合 ， 
配置 summary automatic 后 ， 路 由 被 聚合 为 B 类 的 地 址 172.16.0.0/16。 并 且 只 向 对 等 体 发 
布 聚合 路 由 ， 减 少 路 由 发 布 的 数量 。 


说 明 
自动 聚合 必须 在 引入 路 由 的 设备 上 操作 ， 其 他 设备 配置 自动 聚合 命令 不 生效 。 


手动 聚合 

通过 aggregate 命令 进行 手动 聚合 ， 手 动 聚 合 可 以 针对 外 部 引入 的 路 由 和 通过 
network 方式 通告 的 路 由 实现 。 手 动 聚 合 比 自动 聚合 路 由 具有 更 高 的 优先 级 ， 并 且 在 任 
何 地 方 都 可 以 实现 ， 即 使 明细 路 由 不 是 来 自 于 本 AS， 因 此 部 署 比较 灵活 。 

配置 示例 : 

aggregate ipv4-address { mask | mask-length } [as-set | attribute-poliey route-policy-name]! | detail-suppressed | origin- 
Ppolicy roure-policy-name?2 | suppress-poliey route-policy-name3 ] 


说 明 : 

该 命令 可 以 对 本 地 路 由 表 的 路 由 做 聚合 , 聚合 时 可 以 携带 关键 字 as-set、 attribute-policy、 
detail-suppressed、 origin-policy、 suppress-policy， 后 续 将 会 详细 介绍 。 

默认 路 由 

如 果 一 台 设 备 在 网 络 中 有 多 个 eBGP 邻居 ， 或 者 存在 多 个 路 由 反射 器 ， 那 么 该 设 
备 将 会 从 邻居 或 者 反射 器 接收 全 网 的 路 由 , 该 设备 也 会 向 本 AS 内 的 iBGP 对 等 体 发 布 
路 由 ， 这 样 会 极 大 地 增加 路 由 表 的 容量 ， 通 过 向 对 等 体 发 布 缺 省 路 由 ， 减 少 对 等 体 路 
由 表 的 数量 。 

配置 命令 : 

Peer { group-name | jpv4-adress | ipv6-address } default-route-advertise [ route-policy route-policy-name ] [ conditional-route- 
hate al {pv oatess] { mask? | mask length] } } 1-4> | comaitional toute match-any {pd -cliees? Umask | mask-lengih2 } 
&<1-4>] 

说 明 : 

该 命令 用 来 向 对 等 体 发 布 一 条 默认 路 由 , 可 以 通过 route-policy 来 设置 默认 路 由 的 属性 ， 
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conditional-route-match-any/all 用 来 设置 匹配 条 件 ， 如 果 满 足 条 件 则 发 布 默认 路 由 。any 是 指 
当 匹 配 任 一 条 件 时 ， 发 布 默 认 路 由 ，all 是 指 当 匹配 所 有 条 件 时 ， 发 布 默认 路 由 。 


6.2.5 ”案例 分 析 


案例 研究 : 路 由 引入 造成 的 路 由 环 路 
场景 描述 : 如 图 6-26 所 示 ，R1 将 100.1.1.0 通告 进 BGP， 且 传递 给 AS 200，R2 与 
R4 建立 iBGP 邻居 ，R4 从 iBGP 学 习 到 该 路 由 ，R4 将 iBGP 引入 进 IGP。 
R4 将 iBGP 引入 进 IGP 


100.1.1.0/24 





图 6-26 路 由 引入 造成 的 路 由 环 路 


问题 分 析 : R3 访问 100.1.1.0 时 将 会 出 现 环 路 。 有 具体 原因 : 由 于 R3 没有 运行 BGP， 
只 能 通过 IGP 学 习 到 该 路 由 ，R4 将 BGP 引入 到 IGP，R3 将 会 从 R4 学 习 到 该 路 由 ， 如 
果 R3 访问 100.1.1.0， 下 一 跳 数 据 包 将 会 交 给 R4。 而 R4 从 iBGP 中 学 到 该 路 由 ， 下 一 跳 
为 R2， 但 是 R4 需要 通过 R3 才能 到 达 R2， 因 此 数据 包 会 再 次 经 过 R3， 故 而 形成 环 路 。 

解决 方法 1: 改变 AS 200 的 物理 拓扑 ,将 R2 和 R4 直接 相连 ,形成 AS 内 三 角形 的 
组 网 ， 如 图 6-27 所 示 ，R4 到 达 100.1.1.0 将 会 直接 经 过 R2 到 达 ， 不 会 造成 环 路 。 


NLRI:100.1.1.0/24 
一 人 


eBGP 
100.1.1.0/24 





图 6-27 将 R2 与 R4 增加 一 条 物理 链 路 


解决 方法 2: 如 图 6-28 所 示 , 在 R2 上 引入 路 由 ，R3 访问 100.1.1.0 时 则 会 直接 经 过 
R2 访问 ， 不 会 造成 环 路 。 
在 R2 上 引入 路 由 


100.1.1.0/24 





图 6-28 在 R2 上 引入 路 由 
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案例 研究 ; BGP 的 路 由 手动 聚合 
场景 描述 : 如 图 6-29 所 示 ，AS 100 通告 了 三 条 网 段 172.16.1.0/24、172.16.2.0/24、 
172.16.3.0/24。 为 了 减少 其 他 AS 的 路 由 条 目 数量 ， 需 要 对 路 由 做 聚合 。 


AS 100 


172.16.1.0/24 
172.16.2.0/24 


172.16.3.0/24 





图 6-29 BGP 的 手动 聚合 
配置 示例 : 在 R2 进程 中 配置 手动 聚合 。 


[R2-bgp] bgp 200 
[R2-bgp] aggregate 172.16.0.0 255.255.252.0 
观察 R5 的 路 由 表 : 
<R5>display bgp routing-table 
BGP Local router ID is 10.1.45.5 
Status codes: *-valid, >-best, d-damped, 
bh-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, 7?-incomplete 
Total Number of Routes: 4 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> “172.16.0.0/22 10.1.45.4 0 200i 
*> 172.16.1.0/24 10.1.45.4 0 200 100i 
*> 172.16.2.0/24 10.1.45.4 0 200 100i 
*> 172.16.3.0/24 10.1.45.4 0 200 100i 
说 明 : 
默认 情况 下 ，BGP 会 将 所 有 聚合 后 的 路 由 及 明细 路 由 全 部 通告 ， 聚 合 路 由 时 可 以 通过 
添加 关键 字 来 过 滤 掉 明细 路 由 。 


配置 聚合 命令 时 ， 可 以 在 aggregate 后 添加 detail-suppressed、suppress-policy、 
origin-policy、attribute-policy、as-set 参数 。 

e detail-suppressed: 用 来 过 滤 明 细 路 由 ， 如 不 携带 则 通告 所 有 路 由 。 

配置 示例 : 配置 聚合 路 由 时 添加 关键 字 detail-suppressed 来 抑制 明细 路 由 。 


[R2-bgplaggregate 172.16.0.0 255.255.252.0 detail-suppressed 
查看 R5 的 BGP 路 由 表 ， 只 有 聚合 路 由 ， 明 细 路 由 已 被 抑制 。 
<R5>display bgp routing-table 
BGP Local router ID is 10.1.45.5 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 1 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 172.16.0.0/22 10.1.45.4 0 200i 


显示 BGP 聚合 路 由 详细 信息 : 


<R5>display bgp routing-table 172.16.0.0 
BGP Local router ID : 10.1.45.5 
Local AS number : 300 
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Paths: 1 available, 1 best, 1 select 
BGP routing table entry information of 172.16.0.0/22: 
From: 10.1.45.4 (10.1.34.4) 
Route Duration: 00h14ml18s 
Direct Out-interface: GigabitEthernet0/0/0 
Original nexthop: 10.1.45.4 
Qos information : 0x0 
AS_PATH 200, origin igp, pref-val 0, valid, external best, select, active, pre 255 
Aggregator: AS 200, Aggregator ID 10.1.12.2, Atomic-aggregate 
. “Not advertised to any peer yet 


说 明 : 

BGP 在 做 聚合 时 ， 聚 合 后 的 路 由 一 定 会 携带 aggregator 属性 。 而 atomic-aggregate 属性 仅 
当 聚 合 路 由 抑制 了 所 有 明细 路 由 以 后 才 会 出 现在 聚合 路 由 上 ， 用 以 表明 聚合 时 有 成 员 路 
由 信息 的 丢失 . 原始 的 明细 路 由 来 自 于 AS 100, 但 是 该 聚合 路 由 只 能 看 到 AS_PATH 为 200。 
aggregator 属性 记录 该 聚合 路 由 是 在 哪个 AS 及 AS 中 的 哪 台 路 由 器 上 产生 的 .上 面 的 输出 记 
录 了 该 聚合 是 在 AS 200 中 BGP Router_ID 为 10.1.12.2 的 路 由 器 上 产生 ， 


e Suppress-policy: 用 于 抑制 指定 的 路 由 通告 ， 可 以 用 route-policy 的 if-match 字 
句 有 选择 地 抑制 一 些 具体 路 由 ， 即 匹配 该 策略 的 路 由 将 被 抑制 ， 但 其 他 未 通过 


策略 的 具体 路 由 仍 被 通告 。 
配置 示例 :配置 聚合 使 用 关键 字 suppress-policy 抑制 部 分 路 由 。 
[R2] bgp 200 


[R2-bgp] aggregate 172.16.0.0 255.255.252.0 suppress-policy SUPPRESS 
[R2-bgp] route-policy SUPPRESS permit node 10 

[R2-route-policy] if-match acl 2000 

[R2-route-policy] quit 

[R2]acl 2000 

[R2 -acl-basic-2000]rule 10 permit source 172.16.1.0 0.0.2.0 


说 明 

通过 添加 关键 字 suppress-policy 调用 策略 ,然后 使 用 route-policy 策略 工具 匹配 出 需要 抑 
制 的 路 由 .本 例 中 通过 ACL 工具 匹配 除了 奇数 外 的 路 由 条 目 (172.16.1.0/24、 172.16.3.0/24)， 
并 将 其 抑制 不 通告 。 


查看 R5 的 路 由 表 ， 通 告 了 聚合 路 由 ， 两 条 明细 路 由 被 抑制 了 。 
[R5]display bgp routing-table 
BGP Local router ID is 10.1.45.5 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP., ?-incomplete 
Total Number of Routes: 2 


Network NextHop MED LocPrf PrefVal Path/Ogn 

*> 172.16.0.0/22 10.1.45.4 0 200i 

*> 172.16.2.0/24 10.1.45.4 0 200 100i 

。 origin-policy: 该 关键 字 为 有 条 件 的 聚合 ， 仅 仅 在 匹配 route-policy 时 才 生 成 聚 
合 路 由 
| =] o 


配置 示例 : 配置 有 条 件 产生 聚合 路 由 ， 且 抑制 明细 路 由 。 
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[R2] bgp 200 

[R2-bgp] aggregate 172.16.0.0 255.255.252.0 origin-policy ORIGIN detail-suppressed 
[R2-bgpl]route-policy ORIGIN permit node 10 

[R2-route-policy] if-match ip-prefix ROUTE 

[R2-route-policy] quit 

[R2]ip ip-prefix ROUTE permit 172.16.2.0 24 


说 明 : 

使 用 route-policy 工具 ， 利 用 if-match 来 设置 匹配 条 件 ， 只 有 满足 该 条 件 时 才 生 成 聚合 
路 由 。 当 然 也 能 够 通过 if-match 来 匹配 其 他 的 条 件 。 本 例 中 通过 前 组 列表 匹配 到 
172.16.2.0/24 网 段 ， 如 果 路 由 表 中 存在 则 生成 聚合 路 由 ， 而 且 可 以 同时 携带 多 个 关键 字 .。 


。 attribute-policy: 用 来 设置 聚合 路 由 的 属性 。 
配置 示例 : 为 聚合 路 由 更 改 origin 属性 为 incomplete， 且 抑制 明细 路 由 。 
[R2] bgp 200 
[R2 -bgp] ageregate 172.16.0.0 22 detail.suppressed attribute-policy ATTRIBUTE 
[R2-bgp] route-policy ATTRIBUTE permit node 10 
[R2 -route-policy]apply origin complete 
[R2 -route-policy]Jquit 
说 明 : 
使 用 attribute-policy 为 聚合 路 由 设置 相关 属性 。 配置 聚 合 路 由 时 ， 也 可 以 将 网 络 掩 码 简 
写 为 前 缓 长度 。 


。 as-set: 聚合 路 由 会 丢失 掉 原 有 的 AS 信息 ， 而 该 关键 字 用 来 添加 原始 的 AS 路 
径 信息 到 AS_PATH 属性 中 。AS-SET 是 AS_PATH 中 的 一 种 segment 类 型 ， 记 
录 明 细 路 由 的 AS 号 ， 用 于 避免 聚合 时 路 径 信 息 的 丢失 带 来 的 环 路 隐患 。 但 是 
与 AS-SEQUENCE 不 同 的 是 ，AS-SET 类 型 是 一 种 无 序 的 AS 号 列表 。 如 果 明 
细 路 由 来 自 于 不 同 的 AS， 那么 在 AS-PATH 中 使 用 ( ) 来 将 明细 路 由 的 AS 号 放 
进去 。 
配置 示例 : 配置 聚合 路 由 添加 AS-SET。 
[R2-bgplaggregate 172.16.0.0 22 as-set 
查看 R5 的 BGP 路 由 表 : 
<R5>display bgp routing-table 
BGP Local router ID is 10.1.45.5 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-1GP, e-EGP, ?-incomplete 
Total Number of Routes: 1 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 172.16.0,0/22 10.1.45.4: 0 200 100i 
*> -172.16.1.0/24 10.1.45.4 0 200 100i 
*> 172.16.2.0/24 10.1.45.4 0 200 100i 
*> 172.16.3.0/24 10.1.45.4 0 200 100i 
说 明 : 
聚合 时 添加 AS-SET 关键 字 以 后 ， 聚 合 路 由 会 继承 成 员 明 细 路 由 的 AS 号 ， 用 来 避免 
环 路 。 
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对 明细 路 由 做 聚合 时 ，AS_PATH 的 生成 规则 为 : 由 前 向 后 ,把 所 有 明细 路 由 的 相同 
的 AS 号 放 在 () 的 前 面 ， 否 则 放 在 ( ) 里 面 。 

例 : 

明细 路 由 的 AS_PATH 分 别 为 2000 100 300 和 2000 200 300， 则 聚合 后 的 AS_PATH 
为 : 2000 (100 200 300)。 

如 果 所 有 明细 路 由 的 AS_PATH 为 200 100， 则 聚合 后 的 AS_PATH 为 200 100。 

索 例 研究 : 聚合 路 由 引起 的 环 路 问题 

场景 描述 : 如 图 6-30 所 示 ，AS 100 中 通告 了 三 条 网 段 分 别 为 172.16.1.0/24、 
172.16.2.0/24、172.16.3.0/24， 为 了 减少 AS 200 的 路 由 数量 ， 在 R2 上 进行 了 手动 聚合 ， 
但 没有 携带 AS-SET 关键 字 。 假 设 聚 合 时 不 生成 指向 NULL 0 的 路 由 条 目 ， 将 会 带 来 环 
路 问题 ， 具 体 过 程 如 下 所 述 。 


172.16.1.0/24 
172.16.2.0/24 


172.16.3.0/24 





图 6-30 ”路 由 聚合 造成 的 环 路 问题 


问题 分 析 : 由 于 没有 携带 AS-SET 关键 字 ， 该 聚合 路 由 被 重新 通告 进 R1， 对 于 R1 
来 说 ， 明 细 路 由 来 自 于 本 地 IGP (通告 进 OSPF)， 聚 合 路 由 来 自 于 R2、R1，BGP 聚合 
路 由 和 明细 路 由 都 出 现在 IP 路 由 表 中 。IGP 收敛 速度 比 BGP 快 ， 如 果 R1 上 OSPF 中 的 
明细 路 由 消失 了 ，R1 没有 了 明细 路 由 ， 此 时 ， 如 果 RI1 要 访问 一 个 明细 地 址 ， 将 会 匹配 
到 聚合 路 由 ， 会 将 数据 包 发 送 给 R2， 而 R2 是 通过 BGP 从 R1 学 到 的 这 些 明细 路 由 ， 但 
是 由 于 BGP 的 收敛 速度 慢 ，R2 的 BGP 表 无 变化 。 数 据 包 将 再 次 指向 R11， 至此， 将 会 
出 现 短暂 环 路 。 

解决 方法 : 实际 上 BGP 生成 聚合 路 由 时 ， 将 会 在 IP 路 由 表 中 自动 形成 一 条 指向 
NULL 0 接口 的 路 由 聚合 条 目 。 如 果 Rl1 有 了 这 条 指向 NULL 0 的 聚合 路 由 ， 那 么 R1 匹 
配 到 该 路 由 条 目 时 将 会 直接 丢弃 掉 ， 从 而 避免 环 路 。 

案例 研究 : 默认 路 由 注入 造成 的 次 优 路 径 

场景 描述 : 如 图 6-31 所 示 ，AS 100 中 的 路 由 器 Rl1 与 R2 和 R3 是 eBGP 邻居 ，R1 
分 别 向 R2 和 R3 发 布 默 认 路 由 , R2 和 R3 为 OSPF 域 中 的 ASBR 路 由 器 , 分 别 癌 该 域 中 
有 条 件 地 发 布 默 认 路 由 〈( 当 ASBR 的 路 由 表 中 存在 默认 路 由 才 向 OSPF 发 布 )。 

问题 分 析 : 假设 R1 与 R2 之 间 的 链 路 出 现 故 障 ，R2 则 收 不 到 eBGP 发 布 进来 的 默 
认 路 由 ， 而 R3 从 OSPF 发 布 的 默认 路 由 被 R2 接收 到 ， 此 时 R2 将 会 把 该 默认 路 由 放 
进 路 由 表 ， 下 一 跳 指 向 R4。 但 是 如 果 RI1 与 R2 的 链 路 恢复 以 后 ，R1 通过 eBGP 向 R2 
发 布 的 默认 路 由 也 是 不 会 注入 到 R2 的 路 由 表 的 ,原因 在 于 eBGP 的 路 由 优先 级 为 255， 
而 OSPF 默认 路 由 优先 级 为 150 (LSA 5)， 因 此 R2 也 不 会 将 eBGP 的 默认 路 由 放 进 路 
由 表 ， 这 样 会 造成 R2 选择 一 条 次 优 路 径 ， 如 果 匹 配 到 默认 路 由 时 将 会 沿 着 R4-R3-R1 
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去 转发 数据 报 文 。 


| 有 条 件 
SN RSE fii 





图 6-31 默认 路 由 注入 造成 的 次 优 路 径 


解决 方法 : 修改 R2 的 路 由 优先 级 ,将 BGP 的 优先 级 改 得 更 小 (要 小 于 OSPF 的 150)， 
让 BGP 的 默认 路 由 出 现在 路 由 表 中 。 





6.3 BGP 的 路 由 控制 


6.3.1 ”控制 策略 


路 由 策略 介绍 

路 由 策略 就 是 定义 路 由 器 如 何 接收 路 由 以 及 如 何 通告 路 由 ， 选 择 合适 的 路 径 ，BGP 
最 大 的 优势 在 于 通过 调整 的 路 由 属性 进行 选 路 控制 。 本 节 将 重点 介绍 路 由 策略 的 工具 及 
配置 方法 。 调 整 BGP 的 路 由 属性 应 该 需要 了 解 : 

% ”如 果 调整 路 由 的 出 方向 将 会 影响 入 业务 流量 ; 

4 如果 调 整 路 由 的 入 方向 将 会 影响 出 业务 流量 。 

在 BGP 中 可 用 的 策略 工具 包括 filter-policy、ip-prefix、as-path-filter、route-policy。 
其 中 ，filter-policy 可 以 调用 基本 acl、ip-prefix 来 实现 路 由 过 滤 ; ip-prefix 可 以 直接 通过 
调用 前 绥 列 表 来 实现 路 由 过 滤 ; as-path-filter 通过 匹配 正则 表达 式 的 方式 来 实现 路 由 过 
滤 。route-policy 功能 则 更 强大 ， 除 了 能 调用 acl、ip-prefix、as-path-filter 等 来 过 滤 控 制 路 
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和 Be 。 
由 ， 还 可 以 设置 路 径 属 性 。 

在 BGP 中 通过 策略 控制 路 由 的 发 布 与 接收 , 可 以 控制 路 由 表 的 容量 , 提高 网 络 安全 
性 ， 同 时 避免 向 对 等 体 发 布 或 者 从 对 等 体 接收 到 不 必要 的 路 由 。 

控制 路 由 的 发 布 与 接收 

BGP 路 由 表 的 路 由 数量 通常 比较 大 ， 传 递 大 量 的 路 由 对 设备 来 说 是 一 个 很 大 的 负 
担 ， 为 了 减 小 路 由 发 送 规模 ， 需 要 对 发 布 的 路 由 进行 控制 ， 只 发 送 自己 想 要 发 布 的 路 由 
或 者 只 发 布 对 等 体 需要 的 路 由 。 另 外 ， 到 达 同 一 个 目的 地 址 可 能 存在 多 条 路 由 ， 这 些 路 
由 分 别 需要 穿越 不 同 的 AS， 为 了 把 业务 流量 引导 向 某 些 特定 的 AS， 也 需要 对 发 布 的 路 
由 进行 筛选 。 

当 设 备 遭 到 恶意 攻击 或 者 网 络 中 出 现 错 误 配 置 时 , 会 导致 BGP 从 邻居 接收 到 大 量 的 
路 由 ， 从 而 消耗 大 量 设备 的 资源 。 因 此 管理 员 必 须根 据 网 络 规划 和 设备 容量 ， 对 运行 时 
所 使 用 的 资源 进行 限制 .- BGP 提供 了 基于 对 等 体 的 路 由 控制 , 限定 邻居 发 来 的 路 由 数量 ， 
这 样 可 以 避免 上 述 问 题 。 

路 由 控制 实现 方式 

。 ”基于 访问 控制 列表 ACL: 

Peer { group-name | ipy4-address | ipv6-address } filter-policy { aci-number | acl-name acl-name | aci6-number | acl6-name 
acl6-name } {import lexport } 

说 明 : 

使 用 peer filter-policy 工具 调用 ACL 的 方式 来 实现 对 路 由 进行 发 布 与 接收 的 控制 ， 在 设 
备 上 只 能 有 一 种 发 布 或 者 接收 策略 ， 后 配 的 将 会 取代 前 面 配置 的 。 例 如 先 配 置 了 peer 
10.1.2.2 filter-policy 2000 import， 而 后 配置 了 peer 10.1.2.2 filter-policy 2010 import， 则 后 面 的 
将 会 替代 前 面 的 。 


。 基于 前 级 列表 : 

Ppeer { group-name | ipv4-address } ip-prefix ip-prefix-name { import | export } 或 者 peer { group-name | ipv6-address } ipv6- 
prefix ipv6-prefix-name { import | export } 

说 明 : 

利用 ip-prefix 来 定义 需要 过 滤 的 路 由 ， 只 有 通过 IP 地 址 前 级 列表 过 滤 的 路 由 才 可 以 接 
收 或 者 向 外 发 布 。 


。 基于 AS 路 径 过 滤器 : 

peer { group-name | ipv4-address | ipv6-address } as-path-filter { as-path-filter-number | as-path-filter-name } 
{import | export } 

说 明 : 

AS 路 径 过 滤器 是 一 种 非常 实用 的 路 由 过 滤 方 式 ， 通 过 设置 “正则 表达 式 ” 来 定义 
需要 过 滤 的 AS_PATH， 从 而 实现 过 滤 某 一 些 AS 所 通过 的 路 由 。 比 如 某 一 个 AS 中 通告 
了 一 万 条 路 由 ， 若 想 过滤 掉 该 As 中 所 有 的 路 由 ， 可 以 在 将 AS 号 匹配 到 后 实现 过 滤 ， 
配置 更 简易 。 


。 基于 route-policy 过 滤 : 


peer { group-name | ipv4-address | ipv6-address } route-policy route-policy-name { import | export } 
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route-policy 策略 工具 能 够 对 发 布 或 接收 的 路 由 进行 过 滤 ， 利 用 该 策略 工具 也 能 够 修改 
BGP 的 相关 属性 。 


BGP 控制 路 由 或 操作 路 由 属性 ， 都 需要 在 peer 的 入 或 出 方向 应 用 策略 工具 。 每 个 方向 
只 能 调用 或 应 用 一 个 策略 。 


场景 需求 : 如 图 6-32 所 示 ，AS 24 通告 了 10.1.1.0/24 一 10.1.5.0/24 五 条 路 由 ， 通 过 
路 由 控制 工具 实现 对 路 由 的 过 滤 ， 要 求 R1 只 接收 前 面 三 条 路 由 。 


10.1.1.0/24 
10.1.2.0/24 
10.1.3.0/24 
10.1.4.0/24 

0.1.5.0/24 





图 6-32 配置 路 由 控制 工具 


路 由 控制 工具 1: filter-policy 

配置 示例 : 使 用 filter-policy 工具 过 滤 路 由 

[R1]aci 2000 

[Rl-acl-basic-2000]rule permit source 10.1.0.0 0.0.3.0 

[R1-acl-basic-2000]quit 

[RI1]bgp 13 

[R1-bgpjpeer 2.2.2.2 filter-policy 2000 import 

说 明 : 

通过 ACL 工具 匹配 出 需要 通过 的 路 由 进行 permit 允许 ，10.1.0.0 0.0.3.0 可 以 匹配 出 
10.1.1.0 一 10.1.3.0 这 三 条 路 由 。 在 BGP 进程 中 利用 filter-policy 工具 调用 ACL 2000 并 应 用 在 
import 方向 ,从 而 可 以 将 ACL 中 允许 的 路 由 进行 发 布 ， 其 他 路 由 被 过 滤 掉 ， 这 里 需要 注意 ， 
过 滤 路 由 的 动作 是 在 ACL 中 的 permit 或 者 deny 完成 的 , 如 果 是 permit 则 是 可 以 通过 的 路 由 ， 
deny 是 拒绝 路 由 。 


路 由 控制 工具 2: ip-prefix 
配置 示例 : 使 用 peer ip-prefix 工具 过 滤 路 由 
[R1lip ip-prefix abc permit 10.1.0.0 22 greater-equal 24 less-equal 24 


[Rllbgp 13 
[R1-bgp]peer 2.2.2.2 ip-prefix abc import 
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和 Im Bap _ -- 
说 明 : 
创建 ip-prefix abc 用 于 精确 匹配 前 面 22 位 是 10.1.0.0 且 掩 码 长 度 等 于 24 的 路 由 。 也 就 
是 将 10.1.1.0 ~ 10.1.3.0 都 匹配 到 ， 动 作为 允许 (permit) ， 在 路 由 进程 中 调用 ip-prefix 并 应 
用 在 入 方向 (import) ， 本 示例 只 接收 这 三 条 路 由 ， 其 他 路 由 拒绝 。 


路 由 控制 工具 3: as-path-filter 
区 别 于 上 述 其 他 工具 ，as-path-filter 是 基于 AS_PATH 列表 来 匹配 /识别 路 由 的 。 
在 BGP 中 如 果 需 要 过 滤 路 由 , 假如 使 用 前 级 列表 的 方式 进行 过 滤 , 首先 需要 使 用 前 
级 列表 匹配 出 路 由 ， 然 后 再 过 滤 。 如 果 需 要 过 滤 的 路 由 条 目 非 常 多 ， 使 用 这 种 方式 将 会 
变 得 非常 烦琐 及 复杂 ， 例 如 需要 过 滤 某 一 个 AS 内 的 所 有 路 由 ， 工 作 量 将 会 非常 庞大 。 

BGP 提供 了 一 个 工具 : as-path-filter (as 路 径 过 滤器 )。 该 工具 可 以 将 路 由 中 的 AS 
号 轻松 地 匹配 出 来 然后 实现 过 滤 ， 非 常 方 便 ， 不 需要 配置 大 量 的 路 由 前 级 。 使 用 该 工具 
需要 利用 正则 表达 式 来 定义 匹配 规则 ， 配 置 命 令 : peer as-path-filter。 

正则 表达 式 介绍 : 

正则 表达 式 描述 了 一 种 字符 串 匹 配 的 模式 ， 由 普通 字符 (例如 字符 a 到 z) 和 特殊 

字符 (或 称 “ 元 字符 ”) 组 成 。 正 则 表达 式 作 为 一 个 模板 ,将 某 个 字符 模式 与 所 搜索 的 字 
符 串 进行 匹配 。 

正则 表达 式 的 功能 : 

4 ”检查 字符 串 中 符合 某 个 规则 的 子 字 符 囊 ， 并 可 以 获取 该 子 字 符 串 。 

4 ”根据 匹配 规则 对 字符 串 进行 替换 操作 .。 

正则 表达 式 组 成 部 分 : 

4 ”普通 字符 一 一 普通 字符 匹配 的 对 象 是 普通 字符 本 身 ， 包 括 所 有 的 大 写 和 小 写字 
母 、 数 字 、 标 点 符号 以 及 一 些 特殊 符号 。 例 如 : a 匹配 abc 中 的 a，202 匹配 
202.113.25.155 中 的 202，@ 匹 配 xxx@xxx.com 中 的 @。 

4 特殊 字符 一 一 特殊 字符 配合 普通 字符 匹配 复杂 或 特殊 的 字符 串 组 合 。 表 6-7 是 
对 特殊 字符 及 其 语法 意义 的 描述 。 

表 6-7 特殊 字符 及 其 语法 意义 描述 

特殊 字符 人 
10 可 以 匹配 100 110 等 


大 匹配 前 面 的 一 个 字符 或 者 一 个 序列 ， 可 10* 可 以 匹配 1、10、100 等 


以 零 次 或 多 次 出 现 
匹配 行 首 的 位 置 


$ 匹配 一 个 字符 串 的 结束 Tite AS_PATH: 200 100 不 能 匹配 





^100 可 以 匹配 AS_PATH: 100 200 
不 能 匹配 200 100 


10+ 可 以 匹配 10、100、1000……- 
不 能 匹配 1 


匹配 前 面 的 一 个 字符 或 者 一 个 序列 ， 可 
以 一 次 或 者 多 次 出 现 





连接 符 〔 中 横 线 ) [0-9] 可 以 匹配 0-9 所 有 数字 


匹配 前 面 的 子 正则 表达 式 零 次 或 一 次 


? 说 明 由 于 ? 为 帮助 命令 ， 华 为 数 通 设 | 10? 可 以 匹配 1 或 者 10 
备 不 支持 该 字符 
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举例 说 明 
转移 字符 。 将 下 一 -个 字符 (特殊 字符 或 WE 配 * 
者 普通 字符 ) 标记 为 普通 字符 
配 一 个 符号 。 如 逗号 ， 插 号 ， 空 格 符 | _100 可 以 匹配 出 所 有 含有 100 的 ， 如 AS 路 
油 号 等 (下 划 线 ) 径 200 100 300 或 只 有 一 个 AS 号 100 
100|200 可 以 匹配 100 或 200 


匹配 变化 的 AS 或 者 一 个 独立 的 匹配 ， | 、 5 
() 通常 和 “|” 一 起 使 用 (210|310)$ 可 以 匹配 出 210 或 者 310 AS 号 


匹配 一 个 范围 内 的 AS， 通 常 和 “-” 











0 起 使 用 ^2[123] 可 以 匹配 出 21，22，23 起 始 的 AS 号 
正则 表达 式 的 特点 


4 灵活 性 、 慑 辑 性 、 功 能 性 非常 强 。 

。 用 简单 的 方式 描述 出 复杂 字符 串 的 控制 。 

在 实际 应 用 中 ， 人 往往 不 是 一 个 普通 字符 加 上 一 个 特殊 字符 配合 使 用 ， 而 是 由 多 个 普 
通 字符 和 特殊 字符 组 合 , 匹配 某 些 特征 的 字符 串 。 本 章 将 为 大 家 介绍 BGP 中 常规 的 几 种 
用 法 。 

示例 1: ^100_ 

说 明 : 

起 始 符 为 100 代表 邻居 的 AS 为 100， 后 面 跟 着 下 划 线 ， 代 表 空 格 或 者 结束 符 ， 因 此 


也 可 以 表示 ^100$。 所 以 可 以 匹配 出 所 有 来 自 于 邻居 的 AS 为 100 的 路 由 ， 或 者 只 有 AS 为 
100 的 路 由 。 如 :; AS_PATH 为 (100 200) 、(100 200 300) 、(100) 。 


示例 2: ^100. 
说 明 : 
与 示例 1 类 似 , 但 是 下 划 线 后 跟着 小 数 点 ， 这 个 点 代表 单个 字符 或 者 空格 ， 仅 能 匹配 


邻居 AS 为 100 的 路 由 ， 如 : AS_PATH 为 (100 200)、(100 200 300) 等 ， 但 是 不 能 匹配 出 
AS_PATH 中 只 有 100 的 AS 号 。 


示例 3: ^100. 


说 明 : 
100 后 面 跟着 小 数 点 , 则 能 够 匹配 前 面 三 位 为 100 的 AS 号 , 或 者 邻居 为 100 的 AS 号 ， 
如 : AS_PATH 为 (100 200)、(100 200 300) 等 或 者 (1001)、(10012) 等 。 


示例 4: ^100 


说 明 ; 

与 示例 3 不 同 的 是 ，100 后 面 不 含 小 数 点 ， 则 能 够 匹配 出 所 有 前 三 位 为 100 的 AS 号 ， 
范围 更 广 ， 如 : AS_PATH 为 (100 200)、(100 200 300) 等 ， 或 者 (1001) 、(10012)， 也 
可 以 匹配 出 邻居 为 100 的 AS 号 。 
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示例 5: 1009$ 

说 明 : 

$ 代 表 结 束 符 , 这 条 匹配 所 有 以 100 结束 的 AS 号 ， 因 此 匹配 的 是 所 有 始 发 AS 号 为 100 
的 路 由 。 如 : AS_PATH 为 (200 100)、(200 300 100) 等 。 

示例 6: 人 ^$ 


说 明 : 

一 个 起 始 符 紧 跟着 一 个 结束 符 ， 代 表 AS_PATH 列表 为 空 
路 由 ， 因 为 本 AS 内 传递 的 路 由 都 不 会 携带 AS 号 。 

示例 7: .* 


说 明 ; 
.* 代表 所 有 路 由 ， 类 似 ACL 中 的 any 作用， 任意 的 AS_PATH 列表 。 


配置 案例 : 配置 ip as-path-filter 


(1) 创建 AS 路 径 过 滤器 1， 将 AS_ PATH 路 径 中 所 有 经 过 100 的 BGP 路 由 过 滤 掉 。 
ip as-path-filter 1 deny _100_ 


(2) 创建 AS 路 径 过 滤器 2， 将 所 有 AS-PATH 路 径 中 邻居 AS 为 200 的 过 滤 掉 ， 其 
他 的 接收 。 

ip as-path-filter 2 deny ^200_ 

‘ip as-path-filter 2 permit .* 


(3) 创建 AS 路 径 过 滤器 3， 人 允许 AS_PATH 长 度 为 2 的 所 有 路 由 。 


ip as-path-filter 3 permit [0-9]+.[0-9]+ 


(4) 创建 AS 路 径 过 滤器 4， 精 确 匹 配 出 AS_PATH 为 100 (123 456) 的 路 由 。 


ip as-path-filter 4 permit 100 \ (123 456\) $ 


， 用 来 匹配 所 有 本 AS 产生 的 


说 明 : 
在 配置 AS_PATH-filter 语句 时 ， 类 似 前 缓 列表， 默认 隐 含 拒绝 所 有 
所 有 语句 。 

应 用 AS_PATH-filter: 

[Huawei] bgp 100 

[Huawei-bgp] peer 2.2.2.2 as-path-filter 1 export 
说 明 ; 
正则 表达 式 有 非常 强大 的 功能 ， 不 仅仅 被 用 于 BGP， 也 被 广泛 用 于 其 他 的 领域 。 但 是 


表示 方法 也 比较 复杂 ， 具 体 可 以 参看 《精通 正则 表达 式 ， 第 三 版 》”《 正 则 表达 式 必 知 必 
会 》 等 相关 书籍 。 


， 注 意 最 后 需要 允许 


测试 工具 : display bgp routing-table regular-expression 用 于 对 BGP 路 由 表 使 用 正则 表达 
式 过 滤 ， 查 看 所 有 邻居 AS 为 156 的 路 由 。 
<R1>display bgp routing-table regular-expression ^156 
Total Number of Routes: 6 
BGP Local router ID is 29.29.15.1 
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Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ? -incomplete 


Network NextHop MED LocPrf PrefVal Path/Ogn 
#> 158.3.1.0/24 6.6.6.6 0 156 11 12 13i 
光 人 395 100 0 156 11 12 13i 
*> 158.3.2.0/24 6.6.6.6 0 156 11 12 13i 
wh 5:5.5:5 100 0 156 11 12 13i 
*> 158.3.3.0/24 6.6.6.6 0 156 11 12 13i 
| .5 100 0 156 11 12 13i 


路 由 梨 略 工具 4: route-policy 

路 由 策略 工具 route-policy 是 BGP 中 非常 重要 的 一 个 工具 ， 该 内 容 已 在 “路 由 控制 ” 章 
节 中 有 过 详细 介绍 ，BGP 协议 十 分 依赖 route-policy 工具 ，route-policy 被 用 于 过 滤 路 由 信息 以 
及 为 通过 过 滤 的 路 由 信息 设置 路 由 属性 。 一 个 route-policy 由 多 个 节点 构成 。 一 个 节点 包括 多 
个 让 match 和 apply 子 句 。 直 match 子 名 用 来 定义 该 节点 的 匹配 条 件 ，apply 子 句 用 来 定义 通过 
过 滤 的 路 由 行为 。ifmatch 子 句 的 过 滤 规 则 关系 是 “与 ”， 即 该 节点 的 所 有 论 match 子 句 都 必 
须 匹 配 。route-policy 节点 间 的 过 滤 关 系 是 “或 ” 即 只 要 通过 了 一 个 节点 的 过 滤 ， 就 可 通过 该 
route-policy。 如 果 没 有 通过 任何 一 个 节点 的 过 滤 ， 路 由 信息 将 无 法 通过 该 route-policy。 

route-policy 策略 工具 一 般 分 为 三 个 步骤 ， 第 一 步 ， 使 用 AC 或 前 级 列表 等 工具 匹配 
到 流量 ;第 二 步 ， 使 用 route-policy 来 设置 路 由 属性 ; 第 三 步 ， 在 BGP 进程 中 调用 策略 
并 应 用 在 出 或 者 入 方向 。 

场景 需求 : 如 图 6-33 所 示 ，R1 对 收 到 的 10.1.1.0/24 一 10.1.3.0/24 路 由 做 属性 设置 ， 
配置 Local_Pref 属性 为 150。 其 他 路 由 则 保持 默认 的 Local Pref。 


Local Pref 150 
OG 





图 6-33 设置 Local Pref 属性 


配置 示例 : 

[RHacl 2000 

[Rl-acl-basic-2000]rule permit source 10.1.0.0 0.0.3.0 
[R1-acl-basic-2000]quit 

[Rilroute-policy abc 

[Rll]route-policy abc permit node 10 
[R1-route-policy]if-match acl 2000 
{Rl-route-policy]Japply local-preference 150 
[Rl-route-policy]quit 

[Rijroute-policy abc permit node 20 
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[R1-route-policy]jquit 

[RlJbgp 13 

[Rl1-bgplpeer 2.2.2.2 route-policy abc import 

说 明 : 

本 案例 中 在 node 10 中 将 匹配 到 的 流量 设置 Local_Pref 值 为 150。 在 node 20 中 没有 通过 
if-mach 匹配 流量 ， 而 是 将 其 他 所 有 流量 都 进行 匹配 ， 不 设置 任何 动作 ， 将 使 用 默认 的 值 。 
最 后 在 入 方向 调用 route-policy 工具 。 


BGP 邻居 软 重 置 和 硬 重 置 

在 BGP 中 通过 策略 控制 路 由 的 发 布 与 接收 , 可 以 控制 路 由 表 的 容量 , 提高 网 络 安全 
同时 避免 向 对 等 体 发 布 或 者 从 对 等 体 接收 到 不 必要 的 路 由 。 

如 图 6-34 所 示 ， 控 制 路 由 发 布 与 接收 思路 分 为 如 下 几 个 步骤 。 


配置 路 由 策略 


放 











控制 BGP 路 由 信息 的 发 布 控制 BGP 路 由 信息 的 接收 







配置 BGP 软 复 位 


图 6-34 控制 BGP 路 由 的 交互 流程 图 


第 1 步 : 配置 路 由 策略 〈import 或 export 方向 )。 

第 2 步 : 控制 路 由 发 布 或 接收 。 

第 3 步 : 使 用 命令 refresh bgp 进行 BGP 的 软 复位 。 

BGP 的 入 口 策略 改变 后 ， 新 策略 不 会 立刻 生效 ， 为 了 使 新 的 策略 立即 生效 ， 可 以 重 置 
BGP 连接 ， 但 这 样 会 造成 BGP 连接 中 断 。 由 于 BGP 基于 TCP 层 ， 如 果 BGP 中 断 连 接 ， 将 
会 重新 建立 TCP 连接 ， 这 样 将 会 影响 收敛 的 时 间 。BGP 支持 手工 对 BGP 连接 进行 软 复 位 ， 
可 在 不 中 断 BGP 连接 情况 下 完成 路 由 表 的 刷新 。 对 于 不 支持 软 复位 的 BGP 对 等 体 , 可 以 同 
时 配置 保留 该 对 等 体 的 所 有 原始 路 由 功能 , 在 不 复位 BGP 连接 的 情况 下 完成 路 由 表 的 刷新 。 

配置 命令 : 

refresh bgp [ vpn-instance vpn-instance-name ipv4-family | vpnv4 ] { all | ipv4-address } { export | import } 

说 明 : 

BGP 通过 route-refresh 报 文 来 通知 上 游 邻居 ， 再 次 发 布 一 次 路 由 经 过 策略 决策 进程 ， 从 
而 使 得 路 由 策略 能 够 立刻 生效 。import 针对 入 方向 的 软 复 位 ， 而 export 针对 出 方向 的 软 复 
位 ，all 针对 所 有 IPv4 邻居 的 软 复 位 。 


6.3.2 ”案例 分 析 


案例 研究 : 使 用 策略 工具 调整 Local Pref 属性 
场景 描述 及 需求 : 如 图 6-35 所 示 , AS 300 和 AS 400 分 别 通告 了 一 条 路 由 100.1.1.0/24， 
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该 路 由 传递 到 AS 100， 由 于 从 两 条 路 径 都 能 收 到 该 路 由 ， 在 未 更 改 其 他 属性 的 情况 下 ， 
因为 AS_ PATH 长 短 问题 ，AS 100 的 路 由 器 访问 100.1.1.0 时 会 全 部 经 过 AS 400 到 达 。 
现 要 求 通过 调整 BGP 路 径 属 性 来 控制 R1、R2、R3 的 选 路 。 需 求 如 下 : 

(1) 只 在 R1 上 配置 ; 

(2) 要 求 R2 经 过 AS 200 到 达 100.1.1.0; 

(3) 要 求 R1 和 R3 都 经 过 AS 400 到 达 该 网 段 。 


100.1.1.0/24 





100.1.1.0/24 


图 6-35 ”使 用 策略 工具 调整 Local Pref 属性 


解决 方法 : 修改 Local Pref 属性 来 实现 ， 将 R2 发 布 给 R1 的 路 由 在 入 方向 调用 
route-policy 策略 工具 ， 将 其 发 布 过 来 的 100.1.1.0 路 由 的 Local Pref 值 改 为 80; 将 R3 发 
布 给 Ri 的 路 由 在 入 方向 使 用 同样 的 方法 将 Local Pref 值 改 为 90。 修 改 以 后 来 分 析 一 下 
AS100 中 各 路 由 器 的 选 路 。 

(1) Rl 的 选 路 : R1 从 R2 收 到 的 路 由 改 为 了 80， 而 从 R3 收 到 的 路 由 改 为 90， 那 
么 Rl 会 比较 R2 和 了 R3 通告 来 的 Local Pref 值 。Local Pref 属性 位 于 选 路 规则 中 第 二 位 ， 
要 比 AS_PATH 属性 更 优先 比较 。 因 为 R3 的 更 优 ， 所 以 R1 会 选择 R3 作为 下 一 跳 。 

(2) R2 的 选 路 : 在 未 修改 属性 之 前 ，R2 经 由 R1 去 往 目 标 网 络 ， 但 是 由 于 R1 将 
R3 发 布 的 路 由 Local Pref 值 改 为 了 90, Local Pref 属性 将 会 在 整个 AS 中 传递 , R2 同样 
也 收 到 了 该 值 ， 但 是 R2 会 比较 来 自 于 R4 的 路 由 。 由 于 R4 来 的 路 由 未 做 修改 ， 为 默认 
值 100， 因 此 R2 将 会 选择 R4 作为 下 一 跳 。 

(3) R3 的 选 路 : 由 于 R1 将 R3 作为 到 达 目 标 网 络 最 优 的 下 一 跳 ， 那 么 R3 的 BGP 
路 由 表 中 只 会 有 一 条 到 达 目 标 网 络 的 路 径 ， 该 路 由 是 由 R6 通告 的 。 因 此 R3 将 会 选择 
R6 作为 下 一 跳 。 

配置 示例 : 在 R1 上 通过 route-policy 策略 工具 修改 属性 ， 分 别 改 为 80 和 90。 


[IR1]acl 2000 
[R1-acl-basic-2000] rule 10 permit source 100.1.1.00 


[R1]route-policy 2TO!1 permit node 10 
[Rl1-route-policy]Jif-match acl 2000 
[R1-route-policy] apply local-preference 80 
[Rl1-route-policy] route-policy 2TO1 permit node 20 
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[Rl-route-policy] route-policy 3TO1 permitnode 10 
[Rl-route-policy] if-match acl 2000 
[Rl1-route-policy] apply local-preference 90 
[Rl1-route-policy] route-policy 3TO1 permit node 20 
[Rl1-route-policy] quit 


[R1] bgp 100 
[Ri-bgp] peer 10.1.2.2 route-policy 2TO1 import 
[Ri-bgp] peer 10.1.3.3 route-policy 3TO1 import 
观察 R1/R2/R3 的 BGP 路 由 表 : 
<R1>display bgp routing-table 
BGP Local router ID is 10.1.12.1 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 1 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*>i 100.1,1.0/24 10,1.3,3 0 110 0 400i 
<R2>display bgp routing-table 


BGP Local router ID is 10.1.12.2 

Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 

Total Number of Routes: 2 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*>i 100.1.1.0/24 10.1.3.3 0 110 0 400i 
* > 10:124.4 0 200 300i 
<R3>display bgp routing-table 


BG?P Local router ID is 10:1.13.3 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IJGP, e-EGP, ?-incomplete 
Total Number of Routes: 1 
Network NextHop I LocPrf PrefVal Path/Ogn 
*> 100.1,1.0/24 10.1.36.6 0 400i 


案例 研究 ; 调整 PrefVal 首选 权 属 性 

场景 描述 及 需求 : 如 图 6-35 所 示 , 场景 与 6.3.2 节 相 同 。 现 要 求 通过 调整 BGP 路 径 
属性 来 控制 R1、R2、R3 的 选 路 。 需 求 如 下 。 

(1) 只 在 及 2 上 配置 。 

(2) 要 求 R2 经 过 AS 200 到 达 100.1.1.0。 

(3) 要 求 R1 和 R3 都 经 过 AS 400 到 达 该 网 段 。 

解决 方法 : 在 R2 上 将 R4 通告 过 来 的 路 由 100.1.1.0 匹配 到 后 使 用 route-policy 工具 
将 PrefVal 值 修改 为 200， 修 改 以 后 来 分 析 一 下 AS 100 中 各 路 由 器 的 选 路 。 

(1) R1 的 选 路 : 未 修改 之 前 R1 默认 选 R3 作为 下 一 跳 ， 而 R2 修改 了 PrefVal 值 并 
不 会 影响 R1 的 选 路 ， 因 此 RI1 不 受 影响 ， 依 然 会 选择 R3 作为 下 一 跳 。 

(2 六 R2 的 选 路 : 在 未 修改 属性 之 前 ，R2 经 由 R1 去 往 目 标 网 络 ， 但 是 在 R2 上 将 
R4 通告 来 的 路 由 改 大 了 PrefVal 值 ， 该 值 在 选 路 规则 中 位 列 第 一 位 ， 最 优先 比较 ， 因 此 
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R2 将 会 选择 R4 作为 下 一 跳 。 
(3) R3 的 选 路 : R2 修改 的 PrefVal 值 也 不 会 影响 R3 的 BGP 选 路 ， 因 此 无 需 做 任何 
修改 ，R3 同样 会 选择 R6 作为 下 一 跳 。 
配置 示例 : 在 R2 上 通过 route-policy 策略 工具 修改 PrefVal 值 为 200。 


[R2]jacl 2000 
[R2-acl-basic-2000] rule 10 permit source 100.1.1.00 


[R2] route-policy PrefVal permit node 10 
[R2-route-policy] if-match acl 2000 

[R2-route-policy] apply preferred-vaiue 200 
[R2-route-policy] route-policy PrefVal permit node 20 


[R2] bgp 100 

[R2-bgp] peer 10.1.24.4 route-policy PrefVal import 

说 明 : 

在 BGP 路 由 进程 中 也 可 以 通过 命令 peer { group-name | ipv4-address | ipv6-address |] 
preferred-value va/ve 来 修改 。 该 命令 针对 所 有 对 等 体 发 布 的 路 由 进行 修改 , 不 能 针对 特定 的 
路 由 ， 一 般 使 用 route-policy 工具 来 更 加 精细 地 控制 路 由 。 


案例 研究 ; 通过 策略 调整 MED 属性 

场景 描述 及 需求 : 在 图 6-36 中 ,AS 100 为 ISP1，AS 300 为 ISP2, AS 100 和 AS 400 
为 某 企 业 通 过 BGP 接 入 到 ISP。AS 200 有 两 个 网 段 ， 分 别 为 172.16.30.0/24 和 
172.16.31.0/24， 通 过 调整 BGP 路 径 属 性 来 实现 选 路 ， 现 要 求 如 下 。 

(1) 使 用 MED 属性 。 

(2) 要 求 R6 通过 ISP1 访问 172.16.30.0 网 段 。 

(3) 要 求 R6 通过 ISP2 访问 172.16.31.0 网 段 。 


172.16.30.0/24 
172.16.31.0/24 





图 6-36 案例 研究 :调整 MED 属性 
分 析 思 路 : 由 于 R6 从 AS 100 和 AS 300 都 能 收 到 两 条 路 由 ， 在 属性 未 做 修改 的 情 
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况 下 ，R6 将 选择 R1 作为 到 达 目 标 网 络 的 下 一 跳 ， 根 据 选 路 规则 中 的 Router_ID 属性 来 
决定 出 是 在 〈R1 优 于 了 R5)。 为 了 影响 R6 的 出 业务 流量 ， 可 以 在 R6 的 入 方向 或 者 R1 和 
R5 的 出 方向 来 调整 路 径 属 性 ， 但 是 需求 中 要 求 只 能 修改 MED 值 来 实现 ， 可 以 通过 以 下 
方法 来 解决 。 

解决 方法 : 

(1) 在 Rl 向 R6 发 布 路 由 时 ,将 172.16.31.0 网 段 匹配 到 , 且 在 出 方向 调用 route-policy 
策略 来 修改 MED 值 为 100， 而 172.16.30.0 网 段 采用 默认 的 :MED 值 0。 

(2) 在 R5 向 R6 发 布 路 由 的 出 方向 调用 route-policy 策略 ， 将 172.16.30.0 网 段 匹配 

到 ， 且 将 MED 值 改 为 100， 而 172.16.31.0 网 段 采 用 默认 的 MED 值 0。 

通过 以 上 方式 使 得 R6 在 访问 172.16.30.0 网 段 比 较 MED 时 , R1 要 优 于 R5; 而 访问 
172.16.31.0 网 段 时 ，R5 要 优 于 R1。 

配置 示例 : 在 Rl 和 Rs 的 出 方向 修改 MED 属性 。 


R1 的 配置 
[R1] ip ip-prefix 31 index 10 permit 172.16.31.0 24 


[R1]jroute-policy SET-MED permit node 10 
[R1-route-policyjroute-policy SET-MED permit node 10 
[R1-route-policyjifmatch ip-prefix 31 
[R1-route-policy]apply cost 100 

[R1-route-policy] route-policy SETMED permit node 20 


[R1] bgp 100 
[Ri-bgplpeer 10:1.16.6 route-policy SETMED export 


[R5] ip ip-prefix 30 index 10 permit 172.16.30.0 24 


[RSlroute-policy SETMED permit node 10 
[R5-route-policy]Jroute-policy SET-MED permit node 10 
[RS5-route-policy] if-match ip-prefix 30 

[R5-route-policy] apply cost 100 

[R5-route-policy] route-policy SET-MED permit node 20 


[R5] bgp 300 
[RS5-bgp] peer 10.1.56.6 route-policy SET-MED export 
R6 的 路 由 表 : 
<R6>display bgp routing-table 
BGP Local router ID is 10.1.56.6 
Status codes; *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 4 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> ”172.16.30.0/24 10.1.16.1 0 100 200i 
10.1.56.5 100 0 300 200i 
*> 172.16.31.0/24 10,1.16.1 100 0 100 200i 
10.1.56.5 0 300 200i 


通过 观察 R6 的 路 由 表 , 分 别 将 R1 传递 过 来 的 172.16.31.0 路 由 的 MED 值 修改 成 了 
100， 而 将 RS 传递 过 来 的 172.16.30.0 路 由 MED 值 改 为 了 100， 但 是 R6 仍然 选择 了 R1 


341 Will 


| HCIE 路 由 交换 学 习 指南 | 


到 达 网 段 172.16.31.0，MED 值 的 比较 并 没有 生效 。 


说 明 : 

关于 MED 值 属 性 ， 默 认 情 况 下 路 由 器 只 会 比较 同一 个 AS 来 的 路 由 条 目 ， 不 会 比较 来 
自 不 同 AS 的 路 由 。R6 分 别 从 AS 100 和 AS 300 接收 路 由 ， 由 于 位 于 不 同 的 AS， 因此 是 不 
会 参与 比较 的 。 需 要 使 用 命令 compare-different-as-med 来 比较 不 同 的 AS 间 的 MED 属性 。 


在 R6 上 配置 compare-different-as-med 命令 : 
[R6-bgp]compare-different-as-med 
修改 后 查看 R6 的 路 由 表 ， 已 经 选择 了 正确 的 路 径 : 
<R6>display bgp routing-table 
BGP Local router ID is 10.1.56.6 
Status codes: -Valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 4 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 172.16.30.0/24 10.1.16.1 0 100 200i 
10.1.56.5 100 0 300 200i 
*> 172.16.31.0/24 10.1.56.5 0 300 200i 
和 10.1.16.1 100 0 100 200i 
和 您 湖 : 


如 图 6-37 所 示 ，A100 从 AS 300 和 AS 200 分 别 接收 到 100.1.1.0 网 段 路 由 ， 且 分 别 由 
R2、R3、R4 将 MED 值 设 置 为 200、150、50， 请 问 R1 该 如 何 选 路 ? 





图 6-37 MED 属性 的 调整 


思路 分 析 : R1 有 三 条 路 径 都 可 以 到 达 100.1.1.0 网 段 ， 且 AS_PATH 长 度 也 一 致 。 根 
据 选 路 规则 : MED 属性 位 列 选 路 规则 中 第 6 位， 从 三 个 对 等 体 收 到 的 路 由 中 ， 由 R4 通 
告 的 路 由 MED 值 是 最 小 的 (50)， 但 是 实际 没有 选择 R4 作为 下 一 跳 。 原 因 在 于 R2 与 
R3 和 R4 不 在 同一 AS 中 ,因此 不 会 比较 这 两 个 AS 通告 的 路 由 的 MED 值 。 最 终 比 较 到 
Router ID， 而 R2 的 最 小 ， 所 以 选择 R2 作为 下 一 跳 。 
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配置 示例 ，R1 的 路 由 表 。 
<R1>display bgp routing-table 
BGP Local router ID is 10.1.12.1 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin ; i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 3 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 100.1.1.0/24 10.1,.12.2 200 0 200i 
10.1.14.4 50 0 300i 


10.1.13.3 150 0 300i 

案例 研究 : 通过 策略 调整 AS_PATH 属性 

场景 描述 及 需求 : 如 图 6-35 所 示 ，AS 300 和 AS 400 分 别 通告 了 一 条 路 由 
100.1.1.0/24， 该 路 由 传递 到 AS 100， 由 于 从 两 条 路 径 都 能 收 到 该 路 由 ， 在 未 更 改 其 他 属 
性 的 情况 下 ， 因 为 AS_PATH 长 短 问 题 ，AS 100 的 路 由 器 访问 100.1.1.0 时 会 全 部 经 过 
AS 400 到 达 。 现 要 求 通过 调整 BGP 路 径 属 性 来 控制 RI、R2、R3 的 选 路 ， 需 求 如 下 。 

(1) 只 能 在 R3 上 配置 。 

(2) 要 求 R1 和 R2 经 过 AS 200 到 达 100.1.1.0 网 络 。 

(3) R3 经 过 AS 400 到 达 目 标 。 

解决 方法 : 在 R3 的 入 方向 应 用 策略 修改 AS_PATH 属性 ， 将 AS_PATH 的 长 度 增加 
一 个 AS 号 ， 为 了 确保 AS100 中 所 有 路 由 器 到 达 100.1.1.0 网 段 ，AS 号 长 度 相 等 ， 那 么 
R2 将 会 选择 AS 200 访问 。 因 为 AS_PATH 长 度 一 致 后 ， 将 会 比较 第 7 步 ， 由 于 是 来 自 
eBGP 的 路 由 ， 将 优 于 iBGP。R1 会 收 到 两 条 路 由 ， 下 一 跳 分 别 为 R2 和 了 R3，R1 将 会 选 
择 R2 访问 ， 在 路 径 比 较 的 时 候 将 会 比较 到 最 后 一 步 ， 选 择 Router_ ID 最 小 的 值 ， 因 此 下 
一 跳 会 选择 R2。 而 R3 也 是 从 eBGP 收 到 的 路 由 ， 因 此 会 选择 AS 400 到 达 。 

配置 示例 : 

[R3]acl 2000 

[R3-acl-basic-2000]rule 10 permit source 100.1.1.00 

[R3] route-policy as permit node 10 

[R3-route-policy] if-match acl 2000 

[R3-route-policy] apply as-path 500 additive 


[R3-route-policy] route-policy as permit node 20 
[R3-route-policy] quit 


[R3] bgp 100 
[R3-bgp] peer 10.1.36.6 route-policy SET-AS import 


说 明 : 
配置 as-path 500 additive， 用 于 添加 AS 号 ，R3 收 到 的 路 由 100.1.1.0 会 将 as-path 增加 一 
个 ， 由 以 前 的 400 变 为 (500 400) 添加 在 最 左 侧 ， 如 下 图 所 示 。 


<R3>display bgp routing-table 
BGP Local router ID is 10.1.13.3 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin ; i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 2 
Network NextHop MED LocPrf PrefVal Path/Ogn 
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*> “100.1.1.0/24 10.1.36.6 0 0 500 400i 
10.1.2.2 100 0 200 300i 


修改 AS_PATH 属性 时 可 以 携带 两 个 参数 。 
。 Additive 用 于 添加 AS 号 ， 可 添加 多 个 AS 号 ， 比 如 原 AS 号 为 〈200 300)， 配 
置 apply as-path 500 600 additive 命令 ， 则 在 原 AS_PATH 添加 AS 两 个 号 ,修改 
后 路 径 为 《500，600，200，300)。 
。 ”Overwrite 用 于 覆盖 前 面 的 AS 号 ,比如 原 AS 号 为 400, 而 配置 apply as-path 500 
overwrite 命令 ， 则 as-path 列表 更 改 为 (500)。 
配置 示例 : 修改 as-path overwrite。 
[R3] route-policy as permit node 10 
[R3-route-policy] if-match acl 2000 
[R3-route-policy] apply as-path 500 overwrite 
说 明 : 
配置 覆盖 AS 参数 ， 将 改变 原始 的 AS 号 ， 在 配置 命令 时 ， 系 统 将 会 提示 ， 选 择 确认 即 
可 修改 。 但 是 该 参数 不 建议 使 用 ， 容 易 形 成 环 路 。 
总 涯 ， 
本 例 初始 情况 下 ， 如 其 他 路 由 器 没有 做 任何 属性 修改 ， 需 要 在 R2 上 进行 配置 ， 如 何 
让 R2 选择 AS 200 到 达 100.1.1.0 网 段 。 
分 研 : 
由 于 AS 100 到 达 100.1.1.0 网 段 经 由 AS 400 最 优 ， 只 有 一 个 AS 号 ， 经 由 AS 200 有 两 
个 AS 号 ， 在 决策 路 由 时 ， 可 以 在 R2 上 配置 命令 bestroute as-path-ignore 忽略 掉 AS_PATH 属 
性 。 那 么 R2 将 会 继续 往 后 比较 ，eBGP 优 于 iBGP， 因 此 R2 将 选择 AS 200 到 达 。 


配置 示例 : 
[R2Jbgp 100 
[R2-bgpjbestroute as-path-ignore 


<R2>display bgp routing-table 
BGP Local router ID is 10.1.12.2 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 2 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 100.1.1.0/24 10.1.24.4 0 200 300i 
| 10.1.3.3 0 100 0 500i 
说 明 : 


配置 命令 以 后 ，R2 会 忽略 掉 AS_PATH 属性 的 比较 ， 选 择 了 AS 200 访问 。 


案例 研究 ; 通过 策略 调整 community 属性 

1. 自 定义 团体 属性 案例 

场景 描述 及 需求 : 如 图 6-38 所 示 , R1 通告 的 三 个 网 段 (172.16.1.0/24、172.16.2.0/24、 
172.16.3.0/24)， 要 求 通过 设置 自 定义 团体 属性 ， 在 AS 200 中 做 统一 的 路 由 策略 。 
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172.16.3.0/24 





图 6-38 ”调整 community 属性 


配置 示例 : 

(1) 通过 ip-prefix 将 三 条 路 由 匹配 到 

[R1]Jip ip-prefix ROUTER permit 172.16.0.0 22 greater-equal 24 less-equal 24 
(2) 通过 策略 工具 修改 community 属性 

[Rl]route-policy SET-COMMUNITY permit node 10 
[R1-route-policy]if-match ip-prefix ROUTER 

[R1-route-policy]apply community 100:200 

[Rl-route-policy]quit 

[RI]route-policy SETCOMMUNITY permit node 20 


说 明 : 
匹配 到 路 由 后 ， 通 过 route-policy 工具 设置 自 定义 的 community 属性 为 100:200， 那 么 这 些 路 
由 都 会 被 标识 为 具有 相同 的 community 值 ， 而 其 他 设备 可 以 匹配 到 这 个 属性 来 实现 统一 的 策略 。 


(3) 应 用 策略 在 export 方向 

[RiJbgp 100 

[Rl-bgpjpeer 12.1.1.2 route-policy SET-COMMUNITY export 
(4) 配置 传递 团体 属性 

[Rilbgpl100 

[R1-bgpjpeer 12.1.1.2 advertise-community 


说 明 : 
该 命令 用 于 将 团体 属性 传递 给 对 等 体 ， 默 认 BGP 不 将 团体 属性 发 布 给 任何 对 等 体 。 


查看 R2 的 BGP 路 由 表 的 团体 属性 信息 ， 三 条 路 由 团体 号 被 标识 为 100:200。 
<R2>display bgp routing-table community 
# 查 看 BGP 的 团体 属性 的 路 由 
BGP Local router ID is 12.1.1.2 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 3 


Network NextHop MED LocPrf PrefVal Community 
*> 172.16.1.0/24 12.1.1.1 0 0 <100:200> 
*> 172.16.2.0/24 2 1 0 0 <100:200> 
*> 172.16.3.0/24 2 0 0 <100:200> 
说 明 : 


已 通过 策略 工具 将 三 条 路 由 设置 了 团体 属性 100:200。 若 想 针 对 这 些 路 由 做 统一 的 策 
略 ， 只 需要 将 此 团体 属性 值 匹配 即 可 。 


ip community-filter 团体 属性 过 滤器 
设置 团体 属性 后 可 以 与 ip community-filter 结合 使 用 ， 用 于 作为 route-policy 策略 工 
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具 中 的 匹配 语句 ， 该 过 滤器 可 以 分 为 基本 团体 属性 过 滤器 和 高 级 团体 属性 过 滤器 。 

。 ”基本 团体 属性 过 滤器 可 以 指定 自 定义 的 团体 号 或 者 公共 的 团体 属性 值 。 

配置 基本 团体 属性 可 以 使 用 配置 命令 : ip community-filter basic comm-filter-name 或 
命令 ip community-filter basic-comm-filter-num。 前 者 可 以 指定 基本 团体 属性 过 滤器 的 名 
称 , 但 名 称 必须 包含 非 数 字 字 符 , 一 次 最 多 可 以 配置 20 个 团体 号 。 后 者 只 能 配置 过 滤器 
号 是 1 一 99 的 基本 团体 属性 ， 一 次 最 多 可 以 配置 20 个 团体 号 。 

示例 1: 匹配 自 定义 团体 属性 为 100:200 的 路 由 。 

[huaweilip community-filter 1 permit 100:200 

示例 2: 匹配 公共 团体 属性 为 no-export 的 路 由 。 

[huaweijip community-filter 2 permit no-export 

。 高 级 团体 属性 过 滤器 可 以 指定 正则 表达 式 作为 匹配 条 件 。 

配置 高 级 团体 属性 过 滤器 可 通过 命令 ip community-filter advanced comm-filter- name 
或 命令 ip community-filter adv-comm-filter-num 进行 配置 。 前 者 可 以 指定 高 级 团体 属性 过 
滤器 的 名 称 ， 但 名 称 必 须 包 含 非 数字 字符 。 后 者 只 能 配置 过 滤器 号 是 100~199 的 高 级 团 

示例 3: 匹配 所 有 起 始 符 为 100 的 团体 属性 值 。 


[huaweilip community-filter 100 permit ^100 

在 R2 上 面 使 用 团体 属性 过 滤器 抓 取 到 自 定义 属性 为 100:200 的 路 由 , 并 使 用 策略 工 
有 具 进行 匹配 ， 传 递 给 R3 的 时 候 将 路 由 MED 属性 修改 为 100。 

[R2]ip community-filter 1 permit 100:200 

[R2]route-policy ADV_COMMUNITY permitnode 10 

[R2-route-policy]if-match community-filter 1 

[R2-route-policy]japply cost 100 

[R2-route-policy] route-policy ADV_COMMUNITY permit node 20 

[R2-route-policy]quit 

[R2]bgp 200 

[R2-bgplpeer 10.1.3.3 route-policy ADV_COMMUNITY export 

[R2-bgplpeer 10.1.3.3 advertise-community 


查看 R3 的 BGP 路 由 表 ， 团体 属性 为 100:200 的 路 由 ， 其 MED 值 都 被 设置 为 了 100。 
<R3>display bgp routing-table community 
BGP Local router ID is 10.1.23.3 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP., ?-incomplete 
Total Number of Routes: 3 


Network NextHop MED LocPrf PrefVal Community 
*>i 172.16.1.0/24 10.1.2.2 100 100 0 <100:200> 
*>i 172.16.2.0/24 10.1.2.2 100 100 0 <100:200> 
*>i 172.16.3.0/24 10.1.2.2 100 100 0 <100:200> 


2. 公共 团体 属性 案例 

场景 描述 1: 设置 公共 团体 属性 ， 要 求 AS 100 传递 过 来 的 所 有 团体 属性 为 100:200 
的 路 由 只 人 允许 在 AS200 中 传递 ， 不 允许 传递 到 AS 300， 且 继续 保留 原 团体 属性 值 。 

思路 分 析 : 在 R2 上 通过 ip community-filter 将 100: 200 匹配 到 (该 团体 属性 已 经 
在 上 一 个 案例 中 为 172.16.1.0-172.16.3.0 网 段 设置 了 该 值 )。 然 后 为 其 设置 公共 的 团体 属 
性 no-export， 收 到 该 属性 的 路 由 器 只 能 在 本 AS 内 传递 ， 不 能 发 布 到 本 地 AS 之 外 。 因 
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此 该 路 由 只 能 在 AS 200 中 传递 ， 而 不 传递 到 AS 300。 
配置 示例 : 
[R2] ip community-filter 1 permit 100:200 
[R2]route-policy SET-COMMUNITY permit node 10 
[R2-route-policy] if-match community-filter 1 
[R2-route-policy]apply community no-export additive 
[R2-route-policy]quit 
[R2]route-policy SET-COMMUNITY permit node 20 
[R2]bgp 200 
[R2-bgp]peer 10.1.12.1 route-policy SET-COMMUNITY import 
[R2-bgp] peer 10.1.3.3 advertise-community 


说 明 : 

在 route-policy 中 设置 了 no-export 属性 ， 并 且 使 用 关键 字 additive， 该 关键 字 用 来 添加 新 
的 团体 属性 ， 而 不 会 覆盖 掉 原 来 的 自 定义 团体 属性 值 100:200。 如 果 不 携带 该 关键 字 ， 则 
原 属 性 将 被 覆盖 掉 。 


查看 R2 的 BGP 路 由 表 团 体 属 性 : 
[R2]display bgp routing-table community 
BGP Local router ID is 10.1.12.2 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 3 


Network NextHop MED LocPrf PrefVal Community 

*> 172.16.1.0/24 10.1:12.1 0 0 <100:200>, no-export 

*> 172.16.2.0/24 10.1.12.1 0 0 <100:200>, no-export 

*> 172.16.3.0/24 10.1.12.1 0 0 <100:200>, no-export 
说 明 : 
在 团体 属性 表 中 可 以 同时 看 到 自 定义 团体 属性 100:200 和 公共 团体 属性 no-export。 
查看 R4 和 Rs 的 BGP 路 由 表 : 

<R4>display bgp routing-table 


BGP Local router ID is 10.1,34.4 

Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 

Total Number of Routes: 3 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*>i 172.16.1.0/24 10.1.2.2 0 100 0 100i 
*>i 172.16.2.0/24 109.8.2.2 0 100 0 100i 
*>i 172.16.3.0/24 10.1.2.2 0 100 0 100i 
<R5>display bgp routing-table 
说 明 : 
由 于 R2 设置 了 no-export 属性 ， 因 此 被 标识 的 路 由 只 能 在 AS 200 中 传递 ， 不 能 传递 到 


其 他 AS。 
场景 描述 2: 要 求 原 团 体 属 性 100:200 的 路 由 只 能 被 R2 收 到 ,通过 设置 公共 团体 属 
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性 值 ， 要 求 不 能 通告 给 其 他 的 对 等 体 。 
问题 分 析 : 在 R2 将 100:200 的 团体 属性 匹配 到 ， 然 后 设置 公共 团体 属性 为 
no-advertise， 收 到 该 属性 的 路 由 器 ， 将 不 会 再 传递 给 其 他 任何 对 等 体 。 
配置 示例 : 
[R2] ip community-filter 1 permit 100:200 
[R2]route-policy SET-COMMUNITY permit node 10 
[R2-route-policy] if-match community-filter 1 
[R2-route-policy] apply community advertise 
[R2-route-policy] quit 
[R2]route-policy SET-COMMUNITY permit node 20 
[R2] bgp 200 
[R2-bgplpeer 10.1.12.1 route-policy SET-COMMUNITY import 
说 明 : 
当 路 由 团体 属性 被 设置 为 no-advertise， 该 路 由 器 将 不 会 再 把 路 由 通告 给 其 他 对 等 体 。 
除了 以 上 两 种 公共 团体 属性 以 外 ， 还 有 internet、no-export-subconfed、none。 
internet: 缺 省 情况 下 ， 所 有 路 由 都 属于 该 团体 ， 表 示 可 以 向 任何 对 等 体 发 布 路 由 。 
no-export-subconfed: 用 于 BGP 联盟 中 , 具有 此 属性 的 路 由 器 不 向 AS 外 发 布 路 由 ， 
也 不 能 发 布 给 其 他 子 AS。 
none: 如 果 配 置 了 apply community none 命令 ， 则 BGP 路 由 的 团体 属性 被 删除 。 


6.4 BGP 的 应 用 与 优化 


6.4.1 大 型 的 BGP 


在 一 个 大 型 的 AS 当中 受到 iBGP 水 平分 割 (从 BGP 的 邻居 接收 到 的 路 由 不 能 再 传 
递 给 其 他 的 iBGP 邻居 ) 的 影响 ， 将 会 造成 BGP 的 路 由 无 法 通过 iBGP 邻居 接收 。 解 决 
办 法 有 三 种 。 

1. 建立 全 互联 的 BGP 邻居 

2. 路 由 反射 器 

3. BGP 的 联盟 

说 明 : 建立 全 互联 的 iBGP 邻居 将 会 需要 更 多 的 资源 ， 由 于 BGP 基于 TCP 连接 ， 
每 建立 一 个 BGP 邻居 就 需要 一 个 TCP 连接 ， 这 样 会 极 大 地 消耗 CPU 资源 。TCP 连接 
数 可 以 通过 一 个 公式 : n(n-1)/2 来 计算 。 例 如 在 AS 内 有 10 个 路 由 器 ， 那 么 将 会 有 45 
个 连接 数 。 在 大 型 的 BGP 网 络 中 一 般 不 采用 全 连接 方式 ， 通 常会 采用 路 由 反射 器 和 联 
盟 来 解决 。 


6.4.2 路 由 反射 器 


路 由 反射 器 概念 
在 大 型 的 网 络 中 ，BGP 会 话 的 规模 也 会 日 益 庞 大 ， 在 一 个 AS 内 有 可 能 超过 百 台 设 
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有 a 
备 , 也 就 是 每 台 设 备 都 会 建立 全 互联 的 启 GP 邻居 关系 , 原因 前 面 也 提 到 了 , 是 由 于 iBGP 
的 水 平分 割 原则 ， 从 一 人 台 iBGP 邻居 学 习 到 的 路 由 ， 不 会 再 通告 给 其 他 的 iBGP 邻居 。 而 
路 由 反射 器 的 出 现 可 以 解决 以 上 这 种 问题 ， 多 台 路 由 器 可 以 只 与 一 台中 心 的 路 由 器 来 建 
立 邻 居 关系 ， 这 台中 心路 由 器 就 是 路 由 反射 器 ， 不 需要 全 互联 的 邻居 。 而 路 由 反射 机 制 
允许 该 路 由 被 “反射 出去， 打破 该 限制 。 下 面 介 绍 一 下 路 由 反射 器 几 种 角色 (如 图 6-39 
所 示 )。 


Route Reflector Non-Client 


/ 
/ Client 1 

/ 

/ 


Cluster ] 


1 
I 
\ 
\ 


AS 65000 
Client 2 Client 3 


图 6-39 路 由 反射 器 


。 路 由 反射 器 (Route Reflector): 简称 RR， 人 允许 把 从 iBGP 对 等 体 学 到 的 路 由 反 
射 到 其 他 iBGP 对 等 体 的 BGP 设备 ， 该 角色 就 像 一 面 镜 子 一 样 ， 将 从 一 处 收 到 
的 光线 折射 到 另外 一 处 ， 主 要 用 来 反射 路 由 给 相应 的 客户 机 。 

e 客户 机 (Client): 与 RR 形成 反射 邻居 关系 的 iBGP 设备 ， 在 AS 内 部 客户 机 只 
需要 与 RR 直 连 , 被 RR 指定 用 来 反射 路 由 的 设备 , 由 RR 来 决定 哪 台 设备 作为 
客户 机 。 

。 非 客 户 机 (Non-Client): 既 不 是 RR 也 不 是 客户 机 的 记 GP 设备 。 在 AS 内 部 非 
客户 机 与 RR 之 间 以 及 所 有 的 非 客 户 机 之 间 仍 然 必须 建立 全 连接 关系 。 

。 ” 始 发 者 (Originator): 在 AS 内 部 始 发 路 由 的 设备 。Originator ID 属性 用 于 防止 
集群 内 产生 路 由 环 路 。 

。 集群 (Cluster): 路 由 反射 器 及 其 客户 机 集合 。Cluster List 属性 用 于 防止 集群 
间 产 生路 由 环 路 。 

路 由 反射 原理 

同一 集群 内 的 客户 机 只 需要 与 该 集群 的 RR 直接 交换 路 由 信息 ， 因 此 客户 机 只 需要 

与 RR 之 间 建 立 iBGP 连接 ， 不 需要 与 其 他 客户 机 建立 iBGP 连接 ， 从 而 减少 了 iBGP 连 
接 数量 。 在 向 多 个 对 等 体 发 送 路 由 更 新 时 ， 可 以 对 RR 实现 进行 优化 ， 使 RR 只 简单 地 
复制 Update 消息 ， 而 不 是 针对 每 个 对 等 体 逐 一 生成 相同 的 路 由 进行 更 新 。 如 图 6-39 所 
示 ， 在 AS 65000 内 ,一 台 设 备 作为 RR， 三 台 设 备 作为 客户 机 ， 形 成 Cluster1。 此 时 AS 
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65000 中 iBGP 的 连接 数 从 配置 RR 前 的 10 条 减少 到 4 条， 不仅 简化 了 设备 的 配置 ， 也 
减轻 了 网 络 和 CPU 的 负担 。 

RR 打破 了 iBGP 水 平分 割 的 限制 ， 并 采用 Cluster_List 属性 和 Originator ID 属性 防 
止 路 由 环 路 。RR 向 记 GP 邻居 发 布 路 由 规则 ; 

。 从 非 客户 机 学 到 的 路 由 ， 发 布 给 所 有 客户 机 ; 

e ”从 客户 机 学 到 的 路 由 ， 发 布 给 所 有 非 客 户 机 和 客户 机 (发 起 此 路 由 的 客户 机 

除外 ); 

。 ”从 eBGP 对 等 体 学 到 的 路 由 ， 发 布 给 所 有 的 非 客 户 机 和 客户 机 。 

Originator_ID 属性 和 Cluster_List 属性 

当 网 络 中 只 部 署 一 台 RR 时 会 难以 提供 更 好 的 可 靠 性 及 元 余 性 ， 如 果 该 RR 设备 发 
生 故 障 ， 将 会 导致 其 他 所 有 的 路 由 器 无 法 收 到 路 由 ， 因 此 部 署 多 台 RR 可 以 提供 更 好 的 
见 余 。 如 图 6-40 所 示 ， 在 一 个 AS 内 部 署 了 两 台 RR 设备 ， 都 能 够 用 于 路 由 的 反射 ， 其 
他 设备 同时 与 两 台 RR 建立 iBGP 邻居 关系 。 即 使 其 中 一 台 出 现 故障 ， 另 外 一 台 也 可 以 
工作 。 但 是 部 署 过 多 的 RR 以 及 复杂 的 拓扑 也 可 能 带 来 环 路 的 隐患 ， 传 统 的 AS_PATH 
无 法 检测 到 AS 内 的 环 路 。 因 此 ， 在 部 署 路 由 反射 器 时 ，BGP 提供 了 两 种 属性 ， 用 于 检 
测 AS 内 的 环 路 问题 ， 分 别 是 Originator ID 和 Cluster List 属性 。 


AS 65000 





图 6-40 ”同一 个 集群 的 路 由 反射 器 方案 


(1) Originator_ID: 可 选 非 过 渡 属 性 ， 该 属性 由 RR 产生 ， 封 装 在 Update 消息 中 ， 
使 用 的 Router_ID 的 值 标识 路 由 的 始 发 者 ， 用 于 防止 集群 内 产生 路 由 环 路 。 

集群 内 的 环 路 现象 

场景 描述 : 一 个 集群 中 部 署 两 个 RR《〈 两 个 RR 使 用 相同 的 Cluster ID), 每 个 RR 和 
集群 中 每 个 客户 建立 iBGP 邻居 关系 。 一 条 路 由 从 Client 1 发 送 给 RR1，RR1 将 该 路 由 
反射 给 RR2 (RR2 可 以 不 是 RR1 的 客户 )，RR2 继续 反射 该 路 由 给 其 客户 Client 1， 路 
由 回 到 始 发 路 由 器 ，Client 1 如 果 使 用 该 路 由 ， 则 环 路 出 现 。 

解决 方法 : 在 反射 集群 内 使 用 Originator ID 属性 来 解决 环 路 ， 具 体 过 程 如 下 。 

QD Client 1 将 路 由 传递 给 RR 1 。 
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@ RR 1 将 为 该 路 由 添加 Originator ID 属性 , 该 属性 为 始 发 者 的 Router ID (Client 1)。 

@) 该 路 由 反射 给 RR 2 后 , 再 继续 由 RR2 反射 给 Client 1。 反 射 过 程 中 Originator_ID 
属性 不 变化 。 

由 Client 1 收 到 带 有 Originator ID 的 路 由 ， 将 Originator ID 属性 值 和 本 地 的 
Router ID 进行 比较 ， 如 果 一 致 ， 说 明 Client 1 收 到 的 这 条 路 由 是 其 通告 出 去 的 路 由 ， 路 
由 形成 了 环 路 ，Client 1 拒绝 接收 该 路 由 以 避免 环 路 。 

下 面 的 输出 是 带 有 Originator ID 属性 的 路 由 。 

[Huawei] display bgp routing-table 172.16.0.0 

as-path 100, origin incomplete, localpref 100, pref-val 0, valid, internal, best, select, active, pre 255, IGP cost 2 

Originator: 2.2.2.2 

Cluster list: 3.3.3.3 

说 明 : 

上 述 场景 并 不 会 发 生 ， 原 因 是 由 于 另外 一 个 BGP 属性 Cluster_List 在 RR 1 反射 Client 1 
的 路 由 给 RR 2 时 ， 由 于 RR 2 和 RR 1 具有 相同 的 Cluster_ID，RR 2 根本 不 会 接收 从 相同 
Cluster_ID 的 RR 反射 过 来 的 路 由 ( 同 集群 的 RR 间 不 互相 接收 对 方 路 由 ) ， 所 以 ，RR2 也 不 
会 反射 路 由 回 Client 1。 

总 十: 

在 上 述 场 景 中 ， 如果 RR 1 和 RR2 的 Cluster_ID 不 同 ， 是否 会 发 生 Client 1 的 路 由 经 RR 1 
和 RR2 反射 回 Client 1? 为 什么 ? 


(2) Cluster_List 可 选 非 过 渡 属 性 ， 该 属性 是 集群 ID (Cluster_ ID〉 的 列表 ，AS 
内 的 每 个 集群 都 由 唯一 的 Cluster_ID 来 标识 (可 以 在 BGP 进程 中 使 用 Cluster ID 命令 来 
修改 ， 默 认为 BGP 的 Router ID )。 路 由 反射 器 使 用 Cluster_List 属性 记录 路 由 经 过 的 每 
个 集群 的 Cluster ID (类 似 AS_PATH 属性 )， 用 来 在 集群 间 避 人 免 环 路 。 当 一 条 路 由 第 一 
次 被 RR 反射 的 时 候 ，RR 会 把 本 地 Cluster ID 添加 到 Cluster List 的 前 面 。 如 果 没 有 
Cluster_List 属性, RR 就 创建 一 个 。 当 RR 接收 到 一 条 更 新 路 由 时 , RR 会 检查 Cluster_List。 
如 果 Cluster_List 中 已 经 有 本 地 Cluster ID， 丢 弃 该 路 由 ;如果 没 有 本 地 Cluster ID， 将 
其 加 入 Cluster List， 然 后 反射 该 路 由 。 

集群 间 的 环 路 现象 

场景 描述 : 如 图 6-41 所 示 ，RR 1/RR 2/RR 3 是 三 个 反射 集群 中 的 路 由 反射 器 , 假设 
RR 1/RR 2/RR 3 中 , 任 两 个 RR 都 是 另 一 个 RR 的 客户 , 并 部 署 全 互联 的 记 GP 邻居 关系 。 
来 自 Client 1-1 的 路 由 通告 给 RR 1， 若 RR 1 反射 给 RR 2，RR 2 再 反射 给 RR 3， 接 着 
RR 3 又 重新 将 该 路 由 发 送 回 RR 1， 一 旦 RR 1 接收 并 使 用 该 路 由 ， 则 环 路 形成 。 

解决 方法 : 在 反射 集群 之 间 使 用 Cluster_List 属性 来 解决 环 路 ， 有 具体 过 程 如 下 。 

G Client 1 将 路 由 传递 给 RR 1。RR 1 接收 到 路 由 ， 检 查 Cluster_List 中 是 否 有 自己 
的 Cluster ID， 如 果 没 有 则 添加 进去 ， 有 则 丢弃 掉 ， 并 且 反 射 给 它 的 客户 机 。 

@@ RR 2 是 Cluster 1 的 客户 机 ，RR 2 接收 路 由 后 ， 检 查 Cluster List 中 是 否 有 自己 
的 Cluster_ ID， 如 果 有 则 丢弃 该 路 由 ， 没 有 则 添加 自己 的 Cluster ID， 并 继续 反射 给 它 的 
客户 机 。 
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图 6-41 多 反射 集群 方案 


@) RR 3 也 是 Cluster 2 的 客户 机 ，RR 3 收 到 路 由 并 检查 Cluster List 中 是 否 有 自己 
的 Cluster ID， 如果 有 则 丢弃 掉 该 路 由 ， 没 有 则 添加 ， 并 再 次 反射 给 它 的 客户 机 。 

@ RR 1 从 RR 3 收 到 该 路 由 ， 检 查 Cluster List， 发 现在 该 列表 中 已 经 有 了 自己 的 
Cluster ID， 该 路 由 将 直接 被 丢弃 掉 ， 避 免 路 由 环 路 。 

下 面 的 输出 是 反射 的 路 由 所 携带 的 Cluster List 属性 。 

[RS5-bgpldisplay bgp routing-table 172.16.0.0 

AS-PATH 100, origin incomplete, localpref 100, pref-val 0, internal, pre 255 

Aggregator: AS 200, Aggregator ID 12.1.1.2 


Originator: 2.2.2.2 
Cluster list: 4.4.4.4, 3.3.3.3 


说 明 : 

Cluster_List 和 Originator_ID 这 两 个 属性 仅 存 在 于 当 RR 将 从 iBGP 邻居 收 到 的 路 由 向 另 一 
个 iBGP 邻居 通告 时 (反射 行为 )， 用 于 防止 环 路 而 添加 的 仅 在 AS 内 起 作用 的 属性 ， 这 两 
个 属性 并 不 会 出 现在 AS 外 。 


路 由 反射 器 的 设计 部 团 

e 备份 反射 器 

为 增加 网 络 的 可 靠 性 ， 避 免 单 点 故障 ， 需 要 在 一 个 集群 中 配置 一 个 以 上 的 RR， 同 
一 集群 中 的 所 有 RR 必须 使 用 相同 的 Cluster ID， 如 图 6-42 所 示 。 

路 由 反射 器 RR 1 和 RR 2 在 同一 个 集群 内 , 配置 了 相同 的 Cluster_ID。 客户 机 Client 
1 和 相同 Cluster_ID 的 RR 都 建立 iBGP 邻居 关系 。 当 从 eBGP 对 等 体 接收 到 一 条 路 由 时 ， 
Client 1 同时 间 RR 1 和 RR 2 通告 这 条 路 由 。 

RR 1 和 RR 2 在 接收 到 该 路 由 后 , 将 本 地 Cluster_ID 添加 到 Cluster_List 前 面 ， 然 后 
向 其 他 的 客户 机 (Client 2、Client 3) 反射 ， 同 时 相互 反射 。 

RR 1 和 RR 2 在 接收 到 该 反射 路 由 后 ， 检 查 Cluster List， 发 现 自己 的 Cluster ID 已 
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经 包含 在 Cluster List 中 ， 于 是 RR 1 和 RR 2 丢弃 该 路 由 ， 从 而 避免 了 路 由 环 路 ， 同 时 
能 避免 同 集群 内 路 由 反射 器 间 互 相 学 习 源 自 同一 客户 机 的 路 由 ， 可 节省 内 存 开销 。 





AS 65000 


Client 1 





图 6-42 备份 反射 器 方案 


由 于 集群 中 RR 间 不 互相 学 习 Client 的 路 由 ， 所 以 如 果 RR 上 没有 eBGP 邻居 关系 ， 
则 RR 间 可 以 没有 记 GP 邻居 关系 。 

。 同 级 路 由 反射 器 

如 图 6-43 所 示 , 一 个 骨干 网 被 分 成 多 个 集群 , 各 集群 的 RR 之 间 互 为 非 客户 机 关系 ， 
但 是 建立 iBGP 全 连接 。 此 时 虽然 每 个 客户 机 只 与 所 在 集群 的 RR 建立 iBGP 连接 , 但 所 
有 RR 和 客户 机 都 能 收 到 全 部 路 由 信息 。 





一 


区 Glient 


Client 


Cluster2 _ 


一 





图 6-43 同 级 路 由 反射 方案 
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。 ”分 层 路 由 反射 器 
如 图 6-44 所 示 ， 一 个 AS 中 可 以 存在 多 个 集群 ， 各 个 集群 的 RR 之 间 建 立 iBGP 对 
等 体 。 当 RR 所 处 的 网 络 层 不 同时 ， 可 以 将 较 低 网 络 层次 的 RR 配 成 客户 机 ， 形 成 分 级 
RR。 每 个 路 由 反射 器 既 可 以 作为 该 集群 的 反射 器 角色 , 也 可 作为 其 他 集群 的 客户 机 角色 。 





qo Client/RR-2 


Cluster 2 





Client Client 


图 6-44 分 层 路 由 反射 方案 


案例 研究 : 路 由 反射 器 组 网 设计 

场景 描述 : 如 图 6-45 所 示 ，AS 300 为 某 企 业 网 络 ， 要 求 为 其 设计 一 个 内 部 网 络 有 
两 个 核心 节点 Core 1 (R1) 和 Core 2 (R2)、 三 个 分 支 节点 ， 分 别 为 Cl (R3)、C2 (R4)、 
C3 (R5)。C2 与 C3 双 归 属 到 一 个 网 络 ， 同 时 能 接收 该 网 络 通告 的 两 条 相同 路 由 
100.1.1.0/24、200.1.1.0/24， 为 满足 新 业务 扩充 ， 新 加 入 了 节点 B1 (R6) 和 B2 (R7)。 

组 网 需求 如 下 。 

(1) 要 求 分 支 节点 之 间 能 直接 交互 路 由 信息 ， 必 须 通过 核心 节点 来 交互 。 

(2) 要 求 Bl 和 B2 这 两 个 节点 彼此 之 间 不 需要 交互 路 由 , 但 是 能 够 学 习 到 其 他 所 有 
路 由 ， 两 个 节点 只 需 与 Core 2 相连 。 

(3) 设计 网 络 时 注意 见 余 性 、 可 靠 性 。 

(4) 考虑 到 Bl 和 B2 能 够 访问 到 AS 100。 

路 由 控制 需求 如 下 。 

(1) 要 求 C1 访问 100.1.1.0 网 段 选择 经 过 C2， 访 问 200.1.1.0 网 段 选择 经 过 C3。 

(2) 要 求 C1 访问 100.1.1.0 网 段 选择 经 过 Core 1， 访 问 200.1.1.0 网 段 选择 经 过 Core 2。 

(3) 要 求 在 Core 1 和 Core 2 上 来 实现 路 由 的 控制 。 


E 354 


| 第 六 章 BGP | 


(4) AS 100 访问 AS 200 不 能 将 AS 300 作为 穿越 AS。 
组 网 分 析 思 路 : 为 满足 组 网 的 需求 ， 方 案 如 图 6-45 所 示 。 


100.1.1.0/24 
200.1.1.0/24 





图 6-45 路 由 反射 器 组 网 设计 


需求 1 分 析 : 由 于 分 支 节点 之 间 不 能 直接 交互 路 由 信息 ， 因 此 C1、C2、C3 之 间 没 
有 直接 的 物理 连 线 ， 都 与 两 台 核心 路 由 器 相连 (Core 1 和 Core 2)， 两 台 核 心 设备 部 署 为 
路 由 反射 器 RR， 各 分 支部 署 为 客户 端 Client， 这 样 就 可 以 将 各 自分 支 之 间 的 路 由 通过 
RR 来 反射 。 

需求 2 分 析 : 由 于 新 加 入 的 节点 之 间 不 能 学 习 各 自 路 由 ， 但 是 可 以 学 习 其 他 所 有 
路 由 ， 那 么 将 B1 和 B2 作为 非 客 户 端 ， 两 台 设备 之 间 无 任何 物理 连 线 ， 且 只 与 Core 2 
相连 。 

需求 3 分 析 : 将 C1、C2、C3 都 双 上 连 到 Core 1 和 Core 2， 且 都 作为 两 个 RR 的 客 
户 端 ， 实 现 网 络 的 元 余 性 和 可 靠 性 。 

需求 4 分 析 : Core 1 和 Core 2 之 间 没 有 直接 的 物理 连 线 ， 而 Bl 和 B2 只 与 Core 2 
相连 。 由 于 B1 和 B2 传递 到 Core 2 的 路 由 只 能 反射 路 由 给 三 台 客 户 端 设备 ， 而 不 能 再 
传递 给 Core 1， 因 此 是 无 法 访问 AS 100 的 。 那 么 可 以 在 Core 1 和 Core 2 之 间 增 加 一 
条 物理 链 路 ， 让 Core 2 作为 反射 器 ， 也 能 作为 Core 1 的 客户 端 ， 这 样 就 能 实现 访问 
AS 100 了 。 

路 由 控制 思路 分 析 

需求 1; C1 访问 100.1.1.0 和 200.1.1.0 网 段 可 以 经 过 C2 和 C3 同时 访问 ， 由 于 可 以 
通过 两 个 核心 路 由 器 ， 因 此 实际 上 有 四 条 路 径 。 但 是 要 求 C1 必须 经 过 C2 来 访问 
100.1.1.0， 需 要 将 C2 通告 100.1.1.0 网 段 路 径 属 性 修改 得 比 C3 通告 的 更 优 。 而 通过 C3 
访问 200.1.1.0， 就 需要 将 C3 通告 的 200.1.1.0 网 段 路 径 属性 修改 得 比 C2 通告 的 更 优 。 
可 以 修改 PrefVal 值 来 进行 选 路 的 控制 ， 因 为 PrefVal 值 只 会 影响 本 路 由 器 的 选 路 ， 如 更 
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改 其 他 属性 将 会 影响 其 他 路 由 器 的 选 路 。 
关于 100.1.1.0 网 段 的 选 路 : 
4 ， 在 Core 1 连接 C2 的 入 方向 调整 100.1.1.0 路 由 的 PrefVal 值 改 为 100， 而 连接 
C3 的 入 方向 不 调整 ， 默 认为 0， 这 样 来 自 于 C2 通告 的 100.1.1.0 要 优 于 C3 通 
告 的 ，C1 将 会 选择 C2 到 达 100.1.1.0 网 段 ; 
4 ， 在 Core2 上 连接 C2 的 入 方向 同样 将 100.1.1.0 路 由 的 PrefVal 值 改 为 100, 而 连 
接 C3 的 入 方向 不 调整 ， 确 保 所 有 到 达 该 网 段 的 路 径 都 选择 C2。 
关于 200.1.1.0 网 段 的 选 路 ; 
4 在 Core 1 连接 C3 的 入 方向 调整 200.1.1.0 路 由 的 PrefVal 值 改 为 100， 而 连接 
C2 的 入 方向 不 调整 ， 默 认为 0， 这 样 来 自 于 C3 通告 的 200.1.1.0 要 优 于 C2 通 
告 的 ，C1 将 会 选择 C3 到 达 200.1.1.0 网 段 ; 
4 在 Core2 上 连接 C3 的 入 方向 同样 将 200.1.1.0 路 由 的 PrefVal 值 改 为 100, 而 连 
接 C2 的 入 方向 不 调整 ， 确 保 所 有 到 达 该 网 段 的 路 径 都 选择 C3。 
需求 2: 由 于 Core 1 和 Core 2 都 反射 了 路 由 给 C1， 而 要 求 C1 选择 Core 1 来 访问 
100.1.1.0 网 段 ，C2 选择 Core 2 来 访问 200.1.1.0 网 段 。 那 么 需要 调整 两 台 核 心 设备 的 策 
略 ， 在 向 Cl 通告 的 出 口 调用 策略 ， 通 过 修改 Local_Pref 属性 来 实现 。 
关于 100.1.1.0 网 段 的 选 路 : 
在 Core 1 连接 C1 的 出 方向 调整 100.1.1.0 路 由 的 Local Pref 值 为 130， 而 Core 2 连 
接 C1 的 出 方向 不 调整 ， 默 认为 100， 这 样 就 能 确保 C1 经 过 Core 1 到 达 100.1.1.0 网 段 。 
关于 200.1.1.0 网 段 的 选 路 : 
在 Core 2 连接 C1 的 出 方向 调整 200.1.1.0 路 由 的 Local Pref 值 为 150， 而 Core 1 连 
接 C1 的 出 方向 不 调整 ， 默 认为 100， 这 样 就 能 确保 Cl 选择 Core 2 到 达 200.1.1.0 网 段 。 
需求 3， 由 于 所 有 配置 需要 在 Core 1 和 Core 2 来 实现 ， 而 默认 情况 下 ， 路 由 反射 器 
是 不 能 在 出 口 应 用 策略 修改 路 径 属性 的 ， 目 的 是 为 了 防止 环 路 ， 因 此 需要 通过 配置 命令 
reflect change-path-attribute 来 允许 修改 出 口 的 策略 。 
需求 4: 为 了 防止 AS 300 不 能 作为 外 部 AS 100 和 AS 200 的 穿越 AS， 可 以 通过 
as-path-filter 方式 来 实现 过 滤 。 由 于 在 Core 1 上 配置 ， 自 身 的 AS 不 会 记录 在 AS_PATH,， 
AS_ PATH 列表 为 空 ， 使 用 正则 表达 式 ^$ 将 本 地 产生 的 AS 号 匹配 到 ， 将 其 deny 掉 ， 通 
过 .* 匹 配 所 有 ， 其 他 流量 放行 。 将 AS 300 向 外 通告 的 时 候 过 滤 掉 AS 300 的 路 由 ， 确 保 
AS 300 不 能 作为 其 他 AS 的 穿越 AS。 
配置 结果 如 下 : 


<R1>display current-configuration 
acl number 2000 
rule 10 permit source 100.1.1.0 0 
acl number 2001 
rule 10 permit source 200.1.1.00 
# 
bgp 300 
peer 10.1.3.3 as-number 300 
peer 10.1.3.3 connect-interface LoopBack0 
peer 10.1.4.4 as-number 300 
peer 10.1.4.4 connect-interface LoopBack0 
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peer 10.1.5.5 as-number 300 
peer 10.1.5.5 connect-interface LoopBack0 
peer 10.1.18.8 as-number 100 
# 
ipv4-family unicast 
undo synchronization 
reflect change-path-attribute 
peer 10.1.3.3 enable 
peer 10.1.3.3 route-policy Cl export 
peer 10.1.3.3 reflect-client 
peer 10.1.4.4 enable 
peer 10.1.4.4 route-policy C2 import 
peer 10.1.4.4 reflect-client 
peer 10.1.5.5 enable 
peer 10.1.5.5 route-policy C3 import 
peer 10.1.5.5 reflect-client 
peer 10.1.18.8 enable 
peer 10.1.18.8 as-path-filter 1 export 
内 
route-policy C2 permit node 10 
if-match acl 2000 
apply preferred-value 100 
# 
route-policy C2 permit node 20 
# 
route-policy C3 permit node 10 
if-match acl 2001 
apply preferred-value 100 
# 
route-policy C3 permit node 20 
# 
route-policy Cl permit node 10 
if-match acl 2000 
apply local-preference 150 
# 
route-policy C1 permit node 20 
# 
ip as-path-filter 1 deny ^$ 
ip as-path-filter 1 permit .* 


<R2>display current-configuration 
acl number 2000 
rule 10 permit source 100.1.1.00 
acl number 2001 
rule 10 permit source 200.1.1.00 
# 
bgp 300 
peer 10.1.3.3 as-number 300 
peer 10.1.3.3 connect-interface LoopBack0 
peer 10.1.4.4 as-number 300 
peer 10.1.4.4 connect-interface LoopBack0 
peer 10.1.5.5 as-number 300 
peer 10.1.5.5 connect-interface LoopBack0 
peer 10.1.6.6 as-number 300 
peer 10.1.6.6 connect-interface LoopBack0 
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peer 10.1.7.7 as-number 300 
peer 10.1.7.7 connect-interface LoopBack0 
peer 10.1.29.9 as-number 200 
# 
ipy4-family unicast 
undo synchronization 
reflect change-path-attribute 
peer 10.1.3.3 enable 
peer 10.1.3.3 route-policy Cl export 
peer 10.1.3.3 reflect-client 
peer 10.1.4.4 enable 
peer 10.1.4.4 route-policy C2 import 
peer 10.1.4.4 reflect-client 
peer 10.1.5.5 enable 
peer 10.1.5.5 route-policy C3 import 
peer 10.1.5.5 reflect-client 
peer 10.1.6.6 enable 
peer 10.1.7.7 enable 
peer 10.1.29.9 enable 
peer 10.1.29.9 as-path-filter 1 export 
# 
route-policy C2 permit node 10 
if-match acl 2000 
apply preferred-value 100 
# 
route-policy C2 permit node 20 
# 
route-policy C3 permit node 10 
if-match acl 2001 
apply preferred-value 100 
# 
route-policy C3 permit node 20 
# 
route-policy Cl permit node 10 
if-match acl 2001 
apply local-preference 150 
并 
ip as-path-filter 1 deny ^$ 
ip as-path-filter 1 permit .* 
Cl (R3) 的 BGP 路 由 表 : 
<R3>display bgp routing-table 
BGP Local router ID is 10.1.13,3 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 4 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*>i 100.1.1.0/24 10:1.4.4 0 150 0 i 
wi 10.1.4.4 0 100 0 i 
*#>i 200.1.1.0 10.1.5.5 0 150 0 i 
«i 10.1.5.5 0 100 0 i 
总 海 : 


在 本 例 中 如 果 没 有 修改 任何 属性 ，C1 从 Core 1 和 Core 2 同时 收 到 来 自 C2 的 路 由 ， 那 
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么 C1 该 如 何 选 路 ， 应 该 选择 Core 1 的 还 是 Core 2 的 。 

分 研 : 

如 果 C1 收 到 两 份 相 同 的 路 由 ， 那 么 BGP 将 会 选择 一 条 最 优 的 路 由 放 进 路 由 表 ， 根 据 
“11 条 选 路 规则 ”来 比较 ， 该 路 由 是 经 过 路 由 反射 器 来 的 路 由 。 第 9 步 比 较 Cluster_List, 
长 短 一 致 。 再 看 第 10 步 ， 应 该 比较 Originator_ ID， 而 不 是 比较 Router ID， 但 由 于 都 是 从 C2 


来 的 路 由 ,Originator_ID 也 相同 , 因此 最 终 将 会 比较 第 11 步 比较 邻居 的 IP 地址 ,小 的 更 优 。 
而 Core 1 的 地 址 为 10.1.1.1，Core 2 的 地 址 为 10.1.2.2， 所 以 下 一 跳 应 该 选择 Core 1。 


6.4.3 ”BGP 联盟 


联盟 的 基本 概念 
在 一 个 AS 中 , 如 果 iBGP 的 会 话 数量 较 多 , 管理 起 来 将 会 显得 麻烦 , 尤其 是 受 iBGP 
水 平分 割 的 影响 ,为 了 解决 该 问题 ， 除 了 使 用 路 由 反射 器 之 外 ,还 可 以 使 用 BGP 的 联盟 
(CConfederation)。 联 盟 的 概念 就 是 将 一 个 AS 划分 为 若干 个 子 AS。 每 个 子 AS 内 部 建立 
iBGP 全 连接 关系 (联盟 iBGP 邻居 ), 子 AS 之 间 建 立 eBGP 连接 关系 (联盟 eBGP 邻居 )， 
但 联盟 外 部 AS 仍 认 为 联盟 是 一 个 AS。 
联盟 的 将 点 
配置 联盟 后 ， 原 AS 号 将 作为 每 个 路 由 器 的 联盟 ID。 在 联盟 内 部 具有 以 下 特点 。 
。 在 联盟 内 部 将 会 保留 联盟 外 部 的 next_hop 属性 。 
e 通告 给 联盟 内 的 路 由 的 MED 属性 在 整个 联盟 范围 内 保留 。 
。 ”Local Preference 属性 在 整个 联盟 范围 内 保留 ， 而 不 只 是 在 通告 的 成 员 AS 内 。 
。 ”在 联盟 内 将 成 员 的 AS 号 加 入 AS_PATH 中 ， 但 不 会 将 联盟 内 的 AS 号 通告 到 联盟 
之 外 。 在 联盟 中 , -AS_PATH 属性 又 添加 了 两 种 类 型 AS-CONFED-SEQUENCE、 
AS-CONFED-SET， 默 认 联 盟 将 成 员 的 AS 号 以 AS-CONFED-SEQUENCE 的 形 
式 在 AS_PATH 当中 列 出 ,如 果 在 联盟 内 配置 了 聚合 ，AS 号 将 以 AS-CONFED- 
SET 形式 列 出 。 
。 AS_PATH 中 的 联盟 AS 号 用 于 避免 环 路 ， 但 是 在 联盟 选择 最 短 的 AS_PATH 路 
径 时 不 会 比较 联盟 AS 号 。 
。 联盟 内 相关 的 属性 传 出 联盟 时 将 会 被 自动 删除 , 无 需 过滤 子 AS 号 等 信息 操作 。 
示例 : 如 图 6-46 所 示 ，AS 100 被 分 为 三 个 子 AS (65001、65002、65003)， 使 用 
AS 100 作为 联盟 ID， 此 时 不 需要 采用 iBGP 的 全 互联 ， 连 接 数 从 10 条 减少 到 了 4 条。 
如 果 没 有 配置 联盟 ，AS 100 内 部 都 是 iBGP 邻居 ， 配 置 联盟 以 后 形成 了 联盟 的 eBGP 和 
联盟 的 BGP 邻居 ， 在 联盟 成 员 AS 内 部 可 以 使 用 全 互联 或 RR， 而 在 联盟 成 员 AS 间 使 
用 联盟 AS_PATH 来 避免 环 路 。 
使 用 联盟 时 路 由 的 决策 
(1) BGP 选 路 规则 中 ,规则 4 根据 AS_PATH 属性 的 长 度 选 择 最 佳 路 由 。 在 联盟 中 ， 
BGP 联盟 成 员 AS 号 不 计算 在 AS_PATH 长 度 中 。 例 : (65001 65002) 300 和 “(65002) 
400 长 度 相 同 ， 都 为 1。 
(2) BGP 选 路 规则 中 ， 规 则 7 根据 通告 路 由 的 BGP 对 等 体 的 类 型 来 选择 最 佳 路 由 ， 
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eBGP 优 于 iBGP 邻居 。 在 联盟 中 ， 联 盟 的 eBGP 和 联盟 的 iBGP 邻居 都 被 看 作 iBGP 类 
型 邻居 ， 不 存在 联盟 eBGP 优 于 联盟 iBGP。 






100.1.1.0/24 


AS 65001 





AS 65002 


图 6-46 联盟 拓扑 图 


(3) 当 路 由 都 来 自 于 外 部 AS， 且 其 中 一 条 路 由 通过 联盟 的 eBGP 或 iBGP 收 到 ， 另 
外 一 条 通过 eBGP 邻居 收 到 ， 此 时 首先 比较 AS-PATH 长 度 ， 越 短 越 优 : (在 其 他 规则 一 
致 的 情况 下 ) 如 果 AS_PATH 等 长 ， 则 根据 规则 7 选择 外 部 AS (eBGP 邻居 )。 原 因 在 于 
联盟 的 eBGP 与 联盟 的 iBGP 都 被 视 为 BGP 邻居 ， 而 eBGP 优 于 iBGP。 

示例 1: 

如 图 6-46 所 示 ，R2 和 R4 都 通告 100.1.1.0/24 路 由 到 BGP 中 ，R3 通过 联盟 eBGP 
从 R1 学 到 该 路 由 ， 通 过 联盟 iBGP 从 R4 学 到 该 路 由 。 在 路 径 成 本 一 致 的 情况 下 ，R3 
选择 Router ID 小 的 BGP 邻居 通告 的 路 由 。 如 果 R1 的 Router ID 是 1.1.1.1， 而 R4 的 
Router ID 是 4.4.4.4， 则 最 终 选择 R1 通告 的 路 由 。 

如 图 6-46 所 示 , R6 通告 100.1.1.0/24 路 由 到 AS 100,R5 从 R3 学 来 该 路 由 ,AS_PATH 
为 《65002 65001)， 同 时 从 邻居 AS 200 也 学 来 该 路 由 ，AS_PATH 为 200。R5 根据 选 路 
规则 4， 比 较 AS_PATH 长 度 ，R5 选择 路 由 起 源 于 联盟 内 部 的 路 由 。 原 因 在 于 联盟 
AS PATH 仅 用 于 防止 环 路 ， 不 计 入 AS_PATH 长 度 ， 所 以 必然 比 外 部 AS 的 路 径 更 短 。 

BGP 联盟 配置 实例 

如 图 6-47 所 示 ，R1 为 AS 100，R2/R3/R4 拥有 联盟 ID 为 200，R2 和 R3 在 联盟 AS 
65001 中 ，R4 属于 联盟 AS 65002，R5 属于 AS 300。confederation id 命令 用 来 配置 BGP 
联盟 ， 并 指定 联盟 ID，confederation peer-as 命令 用 来 指定 属于 同一 个 联盟 的 各 子 自 治 系 
统 号 〈 如 果 未 制定 联盟 ID， 该 命令 是 不 会 生效 )。 

配置 联盟 : 

R2 配置 

[R2]bgp 65001 

[R2-bgplconfederation id 200 

[R2-bgp]peer 12.1.1.1 as-number 100 

[R2-bgplpeer 23.1.1.3 as-number 65001 
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R3 配置 

[R3]bgp 65001 

[R3-bgp]confederation id 200 
[R3-bgp]jconfederation peer-as 65002 
[R3-bgp]peer 23.1.1.2 as-number 65001 
[R3-bgplpeer 34.1.1.4 as-number 65002 


AS 65002 R4 





图 6-47 联盟 配置 实例 


联盟 BGP 的 AS_PATH 属性 : 
<R4>display bgp routing-table 
BGP Local router ID is 34.1.1.4 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 4 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*>i 1.1.1.0/24 23.1.1.2 10 200 0 (65001) 100i 
*>i 100.1.1.0/24 23.1.1.2 0 100 0 (65001) 100i 
*>i 172.16.1.0/24 234 12 0 100 0 (65001) 100i 
*>i 172.16.2.0/24 二 由 之 0 100 0 (65001) 100i 


说 明 : 
在 联盟 内 传递 时 ，AS_PATH 属性 没有 记录 联盟 ID 号 ， 而 在 括号 中 包含 了 联盟 当中 子 
AS 号 ， 并 且 MED、Nextp-Hop、Local_Pref 属性 会 一 起 携带 ， 在 整个 联盟 传递 。 


在 Rs 上 看 到 的 BGP 路 由 表 。 
<R5>display bgp routing-table 
BGP Local router ID is 45.1.1.5 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 4 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 1.1.1.0/24 45.1.1.4 0 200 100i 
*> 100.1.1.0/24 45.1.1.4 0 200 100i 
*> “172.16.1.0/24 45.1.1.4 0 200 100i 
*> 172.16.2.0/24 45.1.1.4 0 200 100i 
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说 明 : 
传递 出 联盟 ， 联 盟 内 的 子 AS 号 将 会 丢失 ， 只 记录 联盟 ID 号 ， 并 且 其 他 属性 将 会 一 起 
丢失 。 


BGP 联盟 案例 研究 
场景 描述 : 如 图 6-48 所 示 ，AS 200 使 用 联盟 来 部 署 。 内 部 划分 3 个 子 AS，AS 号 
码 分 别 为 65001、65002、65003。 










R3 100.1.2.0/24 R4 
AS 300 
100.1.1.0/24 < Sr | 100 1 1.0124 


AS 65003 上 


As TY 






R5172.16.1.0/24 R6 
172.16.2.0/24 


图 6-48 ”案例 研究 ; BGP 联盟 


R1 和 R2、R6 和 R7 为 eBGP 邻居 关系 。 R2、R3、R5 之 间 分 别 建立 联盟 eBGP 邻居 ; 
R4 与 R6 为 联盟 eBGP 邻居 ; R3 与 R4、R5 与 R6 分 别 为 联盟 记 GP 邻居 。 

在 AS 100 和 AS 300 中 分 别 通告 100.1.1.0/24 网 段 。 

在 联盟 AS 65002 中 通告 100.1.2.0/24 网 段 。 

在 联盟 AS 65003 中 通告 172.16.1.0/24、172.16.2.0/24 网 段 。 

需求 : 

(1)AS 65003 希望 AS 65002 访问 172.16.1.0/24 网 络 时 优选 R5 进入 , 次 选 R6 进入 。 
访问 172.16.2.0/24 优选 经 R6 进入 。 

(2) 分 别 在 R4 和 R5 做 路 由 聚合 ， 观 察 一 下 该 聚合 路 由 在 联盟 中 的 路 径 ， 观 察 R6 


到 聚合 路 由 的 选 路 。 
(3) 分 析 Rs 到达 100.1.1.0/24 网 段 选 择 哪 条 路 径 到 达 。 
分 析 及 实现 过 程 


需求 1 的 实现 过 程 : 

在 AS 65003 和 AS 65002 间 使 用 MED 来 影响 AS 65002 的 选 路 。 希 望 通过 MED 策 
略 实现 R3 通过 R5 访问 172.16.1.0/24，R4 通过 R6 访问 172.16.2.0/24 网 络 。 

缺 省 情况 下 ，BGP 仅 比 较 来 自 同一 邻居 AS 的 路 由 的 MED 值 ， 并 不 比较 联盟 内 产 
生路 由 的 MED 值 。 如 果 路 由 既 有 外 部 AS 号 ， 又 有 联盟 子 AS 号 ， 这 样 的 路 由 仅 考虑 其 
外 部 AS 比较 。“( )” 中 部 分 在 比较 MED 时 不 考虑 。 
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R3 分 别 从 R2、R5 和 R4 都 收 到 172.16.1.0/24 路 由 ,各自 的 AS_PATH 和 MED 都 不 


由 于 路 由 源 自 联盟 内 ， 而 路 由 中 的 AS_PATH 属性 不 影响 选 路 。 
R2 通告 路 由 的 MED=15 AS PATH= (65001 65003) 

R5 通告 路 由 的 MED=10 AS_PATH= (65003) 

R4 通告 路 由 的 MED=20 AS_PATH= (65003) 


使 R3 到 172.16.1.0/24 选择 R5， 添 加 命令 bestpath med-confederation，MED 值 小 的 
优先 ，R5 通告 的 路 由 优先 。 
由 于 在 联盟 中 传递 路 由 是 不 会 修改 Next_ Hop 属性 的 ,，R3 从 R2 及 R5 (R5 一 R2 一 
R3) 收 到 的 路 由 ， 下 一 跳 相同 。 所 以 R3 通过 R2 和 R5 到 172.16.1.0/24 都 可 以 ， 通 过 调 
整 MED， 使 路 径 优 选 R5， 次 选 R2， 最 后 选择 R4，MED 值 修改 如 图 6-49 所 示 。 








3 100.1.2.0/24 R4 


AS 300 


100.1.1.0/24 和 一 < 100.1.1.0/24 






AS 65003 
a 0 


兮 : 
3 


R5172.16.1.0/24 R6 
172.16.2.0/24 


图 6-49 AS 65002 中 R3 访问 172.16.1.0/24 网 络 时 的 收 到 的 MED 
配置 Rs 的 MED 属性 : 


[RS]display current-configuration 
bgp 65003 
confederation id 200 
confederation peer-as 65001 65002 
peer 10.1.2.2 as-number 65001 
peer 10.1.2.2 ebgp-max-hop 255 
peer 10.1.2.2 connect-interface LoopBack0 
peer 10.1.3.3 as-number 65002 
peer 10.1.3.3 ebgp-max-hop 255 
peer 10.1.3.3 connect-interface LoopBack0 
peer 10.1.6.6 as-number 65003 
peer 10.1.6.6 connect-interface LoopBack0 
# 
ipv4-family unicast 
undo synchronization 
compare-different-as-med 
aggregate 100.1.0.0 255.255.0.0 as-set 
network 172.16.1.0 255.255.255.0 
network 172.16.2.0 255.255.255.0 
peer 10.1.2.2 enable 
peer 10.1.2.2 route-policy R2-med export 
# 修改 AS65003 通过 AS65001 传递 给 R3 的 路 由 的 med 值 
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peer 10.1.3:3 enable 
peer 10.1.3.3 route-policy med export 
# 修 改 AS65003 向 R3 通告 路 由 的 med 值 
peer 10.1.6.6 enable 
# 
ospf 1 
area 0.0.0.0 
network 10.0.0.0 0.255.255.255 
大 
route-policy med permit node 10 
if-match ip-prefix R172-1 
apply cost 10 
# 
route-policy med permit node 20 
if-match ip-prefix R172-2 
apply cost 20 
# 
route-policy med permit node 30 
route-policy R2-med permit node 10 
if-match ip-prefix R172-1 
apply cost 1S 
# 
route-policy R2-med permit node 20 
if-match ip-prefix R172-2 
apply cost 15 
# 
route-policy R2-med permit node 30 
大 
# MED 策略 中 ， 经 R5 学 来 的 路 由 的 MED 值 为 10， 经 R6 学 来 的 MED 值 为 20 
# 经 R2 学 来 的 MED 值 为 15 
ip ip-prefix R172-] index 10 permit 172.16.1.0 24 
ip ip-prefix R172-2 index 10 permit 172:16.2.0 24 
配置 R6 的 MED 属性 : 
[R6] display current-configuration 
bgp 65003 
confederation id 200 
confederation peer-as 65002 
peer 10.1.4.4 as-number 65002 
peer 10.1.4.4 ebgp-max-hop 255 
peer 10.1.4.4 connect-interface LoopBack0 
peer 10.1.5.5 as-number 65003 
peer 10.1.5.5 connect-interface LoopBack0 
peer 10.1.67.7 as-number 300 
# 
ipv4-family unicast 
undo synchronization 
network 10.1.1.0 255.255.255.0 
network 172.16.1.0 255.255.255.0 
network 172.16.2.0 255.255.255.0 
peer 10.1.4.4 .enable 
peer 10.1.4.4 route-policy med export 
peer 10.1.5.5 enable 
peer 10.1.67.7 enable 
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ospf 1 
area 0.0.0.0 
network 10.0.0.0 0.255.255.255 
基 
route-policy med permit node 10 
if-match ip-prefix R172-1 
apply cost 20 
# 
route-policy med permit node 20 
if-match ip-prefix R172-2 
apply cost 10 
并 
route-policy med permit node 30 
# 
ip ip-prefix R172-1 index 10 permit 172.16.1.0 24 
ip ip-prefix R172-2 index 10 permit 172.16.2.0 24 
查看 R3 的 BGP 路 由 表 : 
<R3> display bgp routing-table 
BGP Local router ID is 10.1.23.3 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ? ~incomplete 
Total Number of Routes: 11 


Network NextHop MED LocPrf PrefVal Path/Ogn 
#>i 100.1.1.0/24 10,1.12.4 0 100 0 (65001) 100i 
4 10.1.12.1 0 100 0 (65003 65001) 1001 
*> 100,.1.2.0/24 0.0.0.0 0 0 i 
*#>i 172.16:1.0/24 10.1.5.5 15 100 0 (65001 65003) i 
i 10.1.5.5 10 100 0 (65003) I 
wi 10.1.6.6 20 100 0 (65003) I 
*>i 172.16.2.0/24 10.1.5.5 15 100 0 (65001 65003) i 
| 10.1.6.6 10 100 0 (65003) I 
| 10.1.5.5 20 100 0 (65003) I 
sy 200:1.1.0 10.1.121 1 100 0 (65001) 100i 
| 10.1.67.7 0 100 0 (65003) 300i 


R3 分 别 从 R2、R5、R4 接收 到 172.16.1.0/24， 查 看 详细 信息 : 
<R3>display bgp routing-table 172.16.1.0 
BGP Local router ID ; 10.1.23.3 
Local AS number : 65002 
Paths: 3 available, 1 best, 1 select 
BGP routing table entry information of 172.16.1.0/24: 
From: 10.1.2.2 (10.1.12.2) 
Route Duration: 00h06m16s 
Relay IP Nexthop: 10.1.35.5 
Relay IP Out-Interface: GigabitEthernet0/0/2 
Original nexthop: 10.1.5.5 
Qos information : 0x0 
as-path (65001 65003), origin igp, med 15, localpref 100, pref-val 0, valid, ex 
ternal-confed, best, select, active, pre 255, [GP cost 1 
Advertised to such 3 peers: 
10.1:2.2 
0.15:5 
10.1.4.4 
BGP routing table entry information of 172.16.1.0/24: 
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From: 10.1.5.5 (10.1.25.5) 

Route Duration: 00h06m59s 

Relay IP Nexthop: 10.1.35,5 

Relay IP Out-Interface: GigabitEthernet0/0/2 

Original nexthop: 10.1.5.5 

Qos information : 0x0 

as-path (65003), origin igp, med 10, localpref 100, pref-val 0, valid, external 
-Confed, pre 255, IGP cost 1, not preferred for Router ID 

Not advertised to any peer yet 


BGP routing table entry information of 172.16.1.0/24: 
From: 10.1.4.4 (10.1.34.4) 
Route Duration: 00h03m17s 
Relay IP Nexthop: 10.1.35.5 
Relay IP Out-Interface: GigabitEthemet0/0/2 
Original nexthop: 10.1.6.6 
Qos information : 0x0 
as-path (65003), origin igp, med 20, localpref 100, pref-val 0, valid, internal 
-confed, pre 255, IGP cost 2, not preferred for MED 
Not advertised to any peer yet 
<R3>system-view 
Enter system view, return user view with Ctrl+Z. 
[R3Jbgp 65002 
[R3-bgplbestroute med-confederation 
# 使 得 在 联盟 内 比较 MED 属性 
[R3-bgp]display bgp routing-table 
BGP Local router ID is 10.1.23.3 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 9 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*>i 100.1.1.0/24 10.1.12.1 0 100 0 (65001) 100i 
el 10.1.12.1 0 100 0 (65003 65001) 100i 
*> “100.1.2.0/24 0.0.0.0 0 0 i 
*>i 172.16.1.0/24 10.1.5.5 10 100 0 (65003)i 
*>i 172.16.2.0/24 10.1.6.6 10 100 0 (65003)i 
Ti i013.5 15 100 0 (65001 65003)i 
. 10.1.5.5 20 100 0 (65003)i 
sl 200.1.1.0 O12 1 100 0 (65001) 100i 
nl 10.1.67.7 0 100 0 (65003) 300i 


同 理 ，R4 上 可 以 看 到 访问 172.16.1.0/24 和 172.16.2.0/24 的 路 由 及 选 路 的 结果 。 
<R4>display bgp routing-table 
BGP Local router ID is 10.1.34.4 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 8 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*>i 100.1.1.0/24 10,1:12.1 0 100 0 (65001)100i 
.3 10.1.12.1 0 100 0 (65003 65001) 100i 
*>i 100.1.2.0/24 10.1.3.3 0 100 0 i 
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*>i 172.16.1.0/24 10.1.5.5 10 ，100 0 (65003)i 
i lO.16.6 20 100 -0 (65003)i 
*>i 172.16.2.0/24 10.1.6.6 10 100 0 (65003)i 
*#>i 200.1.1.0 10.1.12.1 1 100 0 (65001) 100i 
*i 10.1.67.7 0 100 0 (65003) 300i 
水 缩 : 


1) 通过 本 例 可 以 知道 MED 可 以 由 R5 设置 ， 经 过 多 个 子 AS 传递 ， 不 修改 。 而 且 在 子 
AS 之 间 传 递 时 ， 路 由 下 一 跳 10.1.5.5 也 没有 修改 ， 所 以 联盟 eBGP 不 同 于 联盟 外 的 eBGP 
邻居 关系 ， 联 盟 eBGP 上 特性 和 iBGP 相似 ， 除 了 AS_PATH 外 。 

2) 原理 补充 ，MED 在 联盟 内 的 应 用 。 


。 ”如 果 路 由 源 自 联盟 内 部 ， 则 邻居 子 AS 号 一 致 ， 可 以 比较 MED; 如 果 邻 居 子 
AS 号 不 一 致 ， 则 不 比较 MED。 
。 ”如 果 路 由 源 自 联盟 外 部 , 其 外 部 邻居 AS 一 致 的 路 由 可 以 比较 MED 值 ; 如 果 路 
由 既 有 外 部 AS 号 , 又 有 联盟 子 AS 号 , 这 样 的 路 由 仅 考 虑 其 外 部 AS 来 判定 是 
否 来 自 同一 邻居 。“( )” 中 部 分 在 比较 MED 时 ， 忽 略 不 考虑 。 
e ”如 果 在 联盟 内 部 子 AS 间 选 路 ， 希 望 使 用 MED 比较 时 ， 可 使 用 如 下 办 法 : 
配置 bestroute med-confederation 命令 , 这 样 BGP 在 联盟 内 选择 最 优 路 由 时 就 能 够 比 
较 MED 值 。 
示例 1: 
路 径 1: 100 (65001) MED=10 IGP-COST2 
路 径 2: 100 (65002) MED =20 IGP-COST1 
说 明 : 
上 述 结果 中 ， 虽 邻居 子 AS 不 同 ， 但 BGP 默认 忽略 子 AS 号 ， 所 以 两 条 路 由 可 以 比较 
MED， 优 选 路 径 1。 


示例 2: 
路 径 1: (65001 65002) MED =10 IGP-COST2 
路 径 2: (65001 65003) MED =20 IGP-COST 1 


说 明 : 

默认 情况 下 ，MED 不 比较 ， 使 用 IGP-COST 小 的 路 由 ， 所 以 优选 路 径 2。 如 果 在 BGP 进 
程 下 ， 添 加 命令 bestpath med-confederation 后 ， 则 选 路 结果 发 生变 化 ，MED 可 以 比较 ， 所 以 
当前 最 好 的 路 由 是 路 径 1。 因 此 添加 该 命令 后 ，MED 可 以 参与 比较 ， 但 并 不 关心 “()” 里 
联盟 子 AS 号 是 什么 。 


需求 2 的 实现 过 程 : 

AS 100 通告 100.1.1.0/24 网 络 ，AS 65002 中 R3 也 通过 一 条 100.1.2.0/24 路 由 ， 请 在 
R4 和 R5 对 路 由 做 聚合 ， 并 请 说 明 R6 上 最 终 选 路 的 结果 。 

分 析 过 程 : 


[RS]display bgp routing-table 
BGP Local router ID is 10.1.25.5 
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Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 

Total Number of Routes: 11 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*>i 100.1.1.0/24 10.1.12,1 0 100 0 (65001) 100i 
和 10.1.12.1 0 100 0 (65002 65001) 100i 
*>i 100.1.2.0/24 10.1.3.3 0 100 0 (65001 65002)i 
i 10.1.3.3 0 100 0 (65002)i 
*> 172.16.1:0/24 0.0.0.0 0 0 i 
| 10.1.6.6 0 100 0 i 
*> 172.16.2.0/24 0.0.0.0 0 0 i 
放生 10.1.6.6 0 100 0 i 
*>i 200.1.1.0 10.1.12.1 1 100 0 (65001) 100i 
汪汪 10.1.12.1 1 100 0 (6500265001) 100i 
et 10.1.67.7 0 100 0 300i 
[RS]bgp 65003 


[R5-bgpjaggregate 100.1.0.0 16 as-set detail-suppressed 
# 在 R5 上 做 聚合 ， 且 抑制 明细 路 由 ， 添 加 AS-SET 参数 
5-bgp]display bgp routing-table 
BGP Local router ID is 10.1.25.5 
Status codes: *-valid, >-best, d-damped, 
bh-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 14 


Network NextHop MED LocPrf PrefVal Path/Ogn 

*> 100.1.0.0/16 127.0.0.1 0 (65001) [65002] {100}i ~ 

s>i 100.1.1.0/24 i101.12.1 0 100 0 (65001) 100i 

el 10.1.12.1 0 100 0 (65002 65001) 100i 

vt 10.1.12.1 0 100 0 {65002 65001) 100i 

s>i 100.1.2.0/24 10.1.3.3 0 100 0 (65001 65002)i 

| 10.1.3.3 0 100 0 (65002)i 

| 10.1.3.3 0 100 0 (65002)i 

*> 172.16.1.0/24 0.0.0.0 0 0 i 

要 10.1.6.6 0 100 0 i 

*> 172.16.2.0/24 0.0.0.0 0 0 i 

和 10.1.6.6 0 100 0 i 

*>i 200.1.1.0 10.1.12.1 1 100 0 (65001) 100i 

| 10.1.12.1 1 100 0 (65002 65001) 100i 

a! 10.1.67.7 0 100 0 300i 
聚合 前 的 路 径 分 别 为 ; 


100.1.1.0/24 (65001) 100 
100.1.2.0/24 (65001 65002) 


聚合 后 的 路 径 为 ; 

有 序 部 分 保留 〈65001)， 无 序 部 分 作为 AS-SET 集合 ， 联 盟 内 的 AS 用 [ ] 来 表示 ， 
外 部 AS 用 { } 来 表示 ， 所 以 路 径 为 : (65001) [65002] {100}。 

同样 ， 在 R4 上 也 将 路 由 进行 聚合 。 

<R4>display bgp routing-table 


BGP Local router ID is 10.1.34.4 
Status codes: *-valid, >-best, d-damped, 
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h-history, i-internal, s-suppressed, S-Stale 
Origin ; i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 7 


Network NextHop MED LocPrf PrefVal Path/Ogn 
~*>i 100.1.1.0/24 10.1.12.1 0 100 0 (65001) 100i 
*>i 100.1.2.0/24 i013.3 0 100 0 I 
*>i 172.16.1.0/24 10.1.5.5 10 100 0 (65003)i 
i 10.1.6.6 20 100 0 (65003)i 
*>i 172.16.2.0/24 10.1.6.6 10 100 人 (65003)i 
s>1 过 900.1.0 10.1.12.1 1 100 0 (65001) 100i 
«i 10.1.67.7 0 100 0 (65003) 300i 
[R4jbgp 65002 
[了 4-bgp]aggregate 100.1.0.0 16 as-set detail-suppressed 
[R4-bgp]display bgp routing-table 
BGP Local router ID is 10.1.34.4 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin ; i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 8 
Network NextHop MED LocPrf PrefVal Path/Ogn 
*> ”100.1.0.0/16 127.0.0.1 0 [65001] {100}i 
s>i 100.1.1.0/24 10.1.12.1 0 100 0 (65001) 100i 
s>i 100.1.2.0/24 10.1.3.3 0 100 0 i 
*>i 172.16.1.0/24 10.1.5.5 10 100 0 (65003)i 
10.1.6.6 20 100 0 (65003)i 
*>i 172.16.2.0/24 10.1.6.6 10 100 0 (65003)i 
> 200.1,1.0 T0112,1 1 100 0 (65001) 100i 
ye O07.7 0 100 0 (65003) 300i 
聚合 前 路 由 路 径 分 别 为 : 
100.1.1.0/24 (65001) 100 
100.1.2.0/24 
聚合 后 的 路 由 路 径 为 : 
由 于 两 条 路 径 AS 号 都 是 无 序 的 ， 因 此 路 径 为 : [65001] {100}。 
查看 R6 的 BGP 路 由 表 。 
<R6>display bgp routing-table 
BGP Local router ID is 10.1.46.6 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin ; i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 9 
Network NextHop MED LocPrf PrefVal Path/Ogn 
*>i 100.1.0.0/16 IQ.1.5.5 100 0 (65001) [65002] {100}i 
pan 10.1.4.4 100 0 (65002) [65001] {100i 
+#> ”172.16.1.0/24 0.0.0.0 0 0 i 
汉 ， 10.1.5.5 0 100 0 i 
t= 172.16,20/24 0.0.0.0 0 0 i 
5 10.1.5.5 0 100 0 i 
> 200.1.10 10.1.67.7 0 0 300i 
el 10.1.12.1 1 100 0 (65001) 100i 
本 10.1.12.1 1 100 0 (65002 65001) 100i 


<R6>display bgp routing-table 100.1.0.0 
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BGP Local router ID : 10.1.46.6 
Local AS number : 65003 
Paths: 2 available, 1 best, 1 select 
BGP routing table entry information of 100.1.0.0/16: 
From: 10.1.5.5 (10.1.25.5) 
Route Duration: 00h34m55s 
Relay IP Nexthop: 10.1.56.5 
Relay IP Out-Interface: GigabitEthernet0/0/1 
Original nexthop: 10.1.5.5 
Qos information : 0x0 
AS_PATH (65001) [65002] {100}, origin igp, localpref 100, pref-val 0, valid, intemal-confed, besb selecb active, pre 255, IGP cost 1 
Aggregator: AS 200, Aggregator ID 10.1.25.5, Atomic-aggregate 
Advertised to such 2 peers: 
10.1.67.7 
10.1.4.4 
BGP routing table entry information of 100.1.0.0/16: 
From: 10.1.4.4 (10.1.34.4) 
Route Duration; 00h22m49s 
Relay IP Nexthop: 10.1.46.4 
Relay IP Out-Interface: GigabitEthernet0/0/0 
Original nexthop: 10,1.4.4 
Qos information : 0x0 
AS_PATH (65002) [65001] {100}, origin igp, localpref 100, pref-val 0, valid, external-confed, pre 255, IGP cost 1, not 
preferred for Router ID 
Aggregator: AS 200, Aggregator ID 10.1.34.4, Atomic-aggregate 
Not advertised to any peer yet 


分 研 : 

R6 分 别 收 到 由 R3 和 R4 聚合 的 两 条 路 由 , 比较 两 条 路 径 属 性 可 以 看 到 AS_PATH 长 短 一 
致 、Origin、Local_Pref、PrefVal 属性 都 一 致 。 最 终 比 较 到 Router_ID 属性 ， 由 于 下 一 跳 10.1.5.5 
传递 的 路 由 (Router_ID 为 10.1.25.5) 要 优 于 下 一 跳 10.1.4.4 传递 的 路 由 (Router_ID 为 
10.1.34.4) ， 因 此 最 终 R6 选择 了 R5 作为 下 一 跳 路 径 。 


需求 3 的 实现 过 程 : 
查看 Rs 的 BGP 路 由 表 。 


[R5]display bgp routing-table 
BGP Local Router ID is 10.1.25.5 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, 7?-incomplete 
Total Number of Routes: 12 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*>i 100.1.1.0/24 10,1.12.1 0 100 0 (65001) 100i 
1 Ol! 0 100 0 (65002 65001) 100i 
-ly 10.1,.67;7 0 100 0 300i 
*>i 100.1.2.0/24 10.133 0 100 0 (65001 65002)i 
i 10.1.3.3 0 100 0 (65002)i 
*> 172.16.1.0/24 0.0.0.0 0 0 1 
Ws 10.1.6.6 0 100 0 i 
*> ，172.16.2.0/24 0.0.0.0 0 0 i 
-i 10.1.6.6 0 100 0 i 
*>1 200.1.1.0 10.1:12,1 1 100 0 (65001) 100i 
ty 10.1.12.1 下 100 0 (65002 65001) 100i 
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要 10.1.67.7 0 100 0 300i 
<R5>display bgp routing-table 100.1.1.0 
BGP Local router ID ; 10.1.25.5 
Local AS number : 65003 
Paths: 3 available, 1 best, 1 select 
BGP routing table entry information of 100.1.1.0/24: 
From: 10.1.2.2 (10.1.12.2) 
Route Duration: 02h18m21s 
Relay IP Nexthop: 10.1.25.2 
Relay IP Out-Interface: GigabitEthemet0/0/0 
Original nexthop: 10.1.2.2 
Qos information : 0x0 
as-path (65001) 100, origin igp, med 0, localpref 100, pref-val 0, valid, extemal-confed, best select, active, pre 255, IGP cost 1 
Advertised to such 2 peers: 
10.1.6.6 
10.1.3.3 
BGP routing table entry information of 100.1.1.0/24: 
From: 10.1.3.3 (10.1.23.3) 
Route Duration: 02h17m068 
Relay IP Nexthop: 10,1.25.2 
Relay IP Out-Interface: GigabitEthermet0/0/0 
Original nexthop: 10.1.2.2 
Qos information : 0x0 
as-path (65002 65001) 100, origin igp, med 0, localpref 100, pref-val 0, valid, external-confed, pre 255, IGP cost 1, not 
preferred for Router ID 
Not advertised to any peer yet 


BGP routing table entry information of 100.1.1.0/24: 
From: 10.1.6.6 (10.1.46.6) 

Route Duration: 02h16m27s 

Relay IP Nexthop: 10.1.56.6 

Relay IP Out-Interface: GigabitEthernet0/0/2 
Original nexthop: 10.1.67.7 


Qos information : 0x0 
as-path 300, origin igp, med 0, localpref 100, pref-val 0, valid, internal-confed, pre 255, IGP cost 2, not preferred for IGP cost 
Not advertised to any peer yet 

分 研 : 

R5 分 别 从 R2、R3、R6 收 到 100.1.1.0/24 路 由 , 由 R2 和 R3 传 递 的 路 由 路 径 分 别 为 (65001) 
100、(65002 65001) 100， 且 拥有 同样 的 下 一 跳 10.1.12.1 (联盟 AS 之 间 不 会 修改 下 一 跳 )， 
由 R6 传递 来 的 路 由 路 径 为 300， 下 一 跳 为 10.1.67.7。R5 将 三 条 路 径 进行 比较 ， 由 于 R2 
与 R3 联盟 中 的 路 径 不 一 样 ， 但 是 联盟 中 将 AS_PATH 都 视 为 0， 因 此 可 以 视 为 相等 ， 其 他 
属性 都 一 致 ， 最 终 比 较 Router ID，R2 (10.1.12.2) 要 优 于 R3 (10.1.23.3) ， 因 此 R2 要 优 于 
R3。 再 将 R2 与 R6 进行 比较 ， 由 于 R2 的 下 一 跳 IGP 的 cost 值 (1) 要 优 于 R6 下 一 跳 的 IGP 
的 cost 值 (2)。 因 此 R2 也 获胜 ， 最 终 R2 作为 到 达 该 网 段 的 下 一 跳 。 


联盟 的 设计 部 署 

在 联盟 随意 地 划分 并 连接 子 AS 会 导致 问题 ， 由 于 联盟 内 部 的 AS 通 往外 部 时 ， 有 
可 能 跨越 联盟 eBGP， 容 易 形 成 次 优 路 径 ， 因 此 在 部 署 联盟 时 使 用 集中 化 的 联盟 体系 架 
构 可 以 带 来 最 优 路 径 的 选择 行为 。 设 计 思 想 为 : 所 有 子 AS 彼此 之 间 都 通过 一 个 中 心 骨 
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干 子 AS 交互 路 由 。 如 图 6-50 所 示 ， 每 个 子 AS 都 与 中 心 子 AS 交互 ， 就 路 由 的 AS 
路 径 长 度 以 及 联盟 内 的 路 由 交互 而 言 ， 这 种 设计 让 联盟 内 的 各 个 子 AS 的 路 由 选择 行 
为 更 统一 。 


联盟 AS 100 


中 心 子 AS 65100 


子 AS 65104 


图 6-50 ”集中 式 联 盟 设 计 





联盟 与 路 由 反射 器 的 比较 
通常 情况 下 , 联盟 是 为 大 型 的 BGP 来 设计 的 , 这 种 解决 方案 对 于 当前 的 互联 网 络 来 
说 比较 少 用 ， 更 多 情况 下 会 选择 路 由 反射 器 方案 。 表 6-8 是 两 者 间 的 比较 。 


表 6-8 路 由 反射 器 和 联盟 对 比 
不 需要 更 改 现 有 的 网 络 拓扑 ， 兼 容 性 好 需要 改变 逻辑 拓扑 
配置 方便 ， 只 需要 在 反射 器 上 配置 所 有 设备 需要 重新 配置 
集群 之 间 需 要 全 互联 a 
适用 于 中 大 型 网 络 适用 于 特大 规模 网 络 


6.4.4 ”BGP 对 等 体 组 


对 等 体 组 (Peer Group) 是 一 些 具 有 某 些 相同 策略 的 对 等 体 的 集合 ， 当 一 个 对 等 体 
加 入 对 等 体 组 中 时 ， 此 对 等 体 将 获得 与 所 在 对 等 体 组 相同 的 配置 。 对 等 体 组 中 的 对 等 体 
可 以 继承 对 等 体 组 的 配置 ， 当 对 等 体 组 的 配置 改变 时 ， 组 内 成 员 的 配置 也 相应 改变 。 

在 大 型 BGP 网 络 中 ， 对 等 体 的 数量 会 很 多 ， 其 中 很 多 对 等 体 具 有 相同 的 策略 ， 在 配 
置 时 会 重复 使 用 一 些 命令 ， 例 如 一 台 设 备 有 10 个 eBGP 邻居 ,每 个 eBGP 邻居 都 要 通过 
逻辑 接口 来 建立 ， 那么 每 个 BGP 邻居 之 间 至 少 需要 配置 三 条 命令 (peer as-number、peer 
ebgp-max-hop、peer connect-interface)， 也 就 是 需要 30 条 命令 ， 如 果 为 10 个 邻居 都 配置 
相同 策略 , 那么 将 需要 再 增加 10 条 命令 , 而 很 多 命令 是 重复 命令 , 邻居 越 多 配置 量 越 大 。 
而 利用 对 等 体 组 可 以 简化 配置 ， 当 用 户 想 对 几 个 对 等 体 进行 相同 配置 的 时 候 ， 可 以 先 创 
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建 一 个 对 等 体 组 并 对 其 进行 相应 的 配置 ， 然 后 将 对 等 体 再 加 入 到 该 组 中 。 这 样 组 内 的 所 
有 对 等 体 都 具有 了 该 组 的 配置 ， 可 以 实现 批量 配置 ， 简 化 管理 的 难度 ， 并 提高 路 由 通告 
效率 。 

说 明 : 

使 用 group 命令 来 创建 对 等 体 组 , 如 图 6-51 所 示 , 命令 : group group-name[ external | internal ]， 
如 果 不 指定 对 等 体 组 为 iBGP 还 是 eBGP， 那 么 默认 创建 iBGP 对 等 体 组 。 


AS 200 
10.1.1.0/24 
10.1.2.0/24 


Fd 


有 R4 
RID=10.1.255.4/32 


RI 
RID=10.1.255.1/32 


10.1.11.0/24 10.1.3.0/24 


10.1.4.0/24 


AS 400 
10.1.5.0/24 
10.1.6.0/24 


RID=10.1.255.2/32 


R6 
RID=10.1.255.6/32 


SR AS 500 
10.1.7.0/24 
10.1.8.0/24 


R7 
RID=10.1.255.7/32 





10.1.12.0/24 


RID=10.1.255.3/32 





AS 600 


10.1.9.0/24 
10.1.10.0/24 


RID=10.1.255.6/32 





图 6-51 BGP 的 group 组 


对 等 体 组 的 配置 步骤 如 下 。 

第 1 步 : 创建 对 等 体 组 。 

第 2 步 : 配置 eBGP 对 等 体 组 的 AS 号 。 

说 明 : 

对 于 iBGP 对 等 体 组 ，AS 号 为 本 地 编号 ， 不 需 配 置 该 步骤 。 
第 3 步 : 在 对 等 体 组 中 加 入 对 等 体 。 

第 4 步 : 为 对 等 体 组 成 员 指定 共同 的 配置 选项 或 者 策略 。 
配置 示例 : 


[Huawei -bgp]group EX external 

[Huawei -bgp]peer EX as-number 200 
[Huawei -bgpjpeer 10.1.2.2 group EX 
[Huawei -bgplpeer 10.1.3.3 group EX 
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[Huawei -bgpjpeer 10.1.4.4 group EX 

[Huawei -bgp]peer EX connect-interface LoopBack 0 

[Huawei -bgplpeer EX ebgp-max-hop 

说 明 : 

创建 eBGP 对 等 体 组 ， 组 名 为 EX， 分 别 将 地 址 加 入 到 该 组 中 ，peer 指向 该 组 名 EX， 配 
置 更 新 源 地 址 、eBGP 多 跳 。 而 无 需 向 每 个 地 址 来 配置 该 命令 ， 一 旦 需要 建立 新 的 邻居 ， 
只 需 将 地 址 加 入 到 该 组 ， 从 而 可 以 继承 所 有 的 配置 或 者 策略 。 如 果 需 要 为 该 组 每 个 地 址 
增加 相同 的 策略 ， 可 以 使 用 命令 peer EX route-policy xx export/import。 


6.4.5 ”路 由 衰减 


在 大 型 的 BGP 网 络 中 ， 如 果 部 分 路 由 发 生 频 繁 的 振荡 ， 这 对 于 BGP 的 设备 来 说 是 
非常 严重 的 。 每 经 历 一 次 路 由 振荡 ， 路 由 需要 重新 地 收敛 ， 所 谓 的 路 由 振荡 是 指 路 由 表 
中 添加 一 条 路 由 后 ， 该 路 由 又 被 撤销 的 过 程 。 当 发 生路 由 振荡 时 ， 设 备 就 会 向 邻居 发 布 
路 由 更 新 ， 收 到 更 新 报 文 的 设备 需要 重新 计算 路 由 并 修改 路 由 表 。 上 所 以 频繁 的 路 由 振荡 
会 消耗 大 量 的 带宽 资源 和 CPU 资源 , 严重 时 会 影响 网 络 的 正常 工作 。 为 了 防止 频繁 的 路 
由 振荡 带 来 的 不 利 影响 ，BGP 使 用 路 由 衰减 来 抑制 不 稳定 的 路 由 。 

BGP 引入 路 由 衰减 功能 ， 具 体 的 几 个 关键 词 描述 如 下 。 

。 ”惩罚 值 (penalty value〉 用 来 衡量 一 条 路 由 的 稳定 性 ， 惩 昼 值 越 高 说 明 路 由 越 不 
稳定 。 如 图 6-52 所 示 ， 路 由 每 发 生 一 次 振荡 ，BGP 便 会 给 此 路 由 增加 1000 的 
惩罚 值 。 

。 ”抑制 阅 值 (suppress value〉 当 惩罚 
值 达 到 或 者 超过 抑制 阔 值 时 〈 缺 省 mt 
值 : 2000)， 此 路 由 被 抑制 , 不 加 入 [NA 
到 路 由 表 中 ,也 不 再 向 其 他 BGP 对 
等 体 发 布 更 新 报 文 。 

e 半衰期 (half-life) 被 抑制 的 路 由 每 
经 过 一 段 时 间 ， 惩 罚 值 便 会 减少 一 
半 ， 这 个 时 间 称 为 半衰期 〈 缺 省 值 ; 
15 分 钟 )。 half-life 

。 ”使 用 阅 值 (reuse value) 当 被 抑制 的 图 6-52 路 由 衰减 示意 图 
路 由 经 过 半衰期 时 间 减 少 一 定 的 阐 值 ， 当 该 值 减少 到 可 以 使 用 的 闵 值 ， 这 个 就 
叫做 使 用 阐 值 ( 缺 省 值 ，750)。 如 果 低 于 该 值 时 此 路 由 变 为 可 用 的 路 由 并 被 加 
入 到 路 由 表 中 ， 同 时 向 其 他 BGP 对 等 体 发 布 更 新 报 文 。 

e 最 大 上 限 值 (ceiling) 惩罚 值 增加 到 一 定 程 度 之 后 ， 便 不 会 再 增加 ， 这 个 值 称 
为 惩罚 上 限 值 ( 缺 省 值 为 16000)。 

e 抑制 时 间 (suppress time) 是 指 从 路 由 被 抑制 到 路 由 恢复 可 用 的 时 间 。 

说 明 : 

路 由 衰减 只 对 eBGP 路 由 起 作用 ， 对 iBGP 路 由 不 起 作用 。 这 是 因为 iBGP 路 由 可 能 含有 

本 AS 的 路 由 ， 而 IGP 网 络 要 求 AS 内 部 路 由 表 尽 可 能 一 致 。 如 果 路 由 衰减 对 iBGP 路 由 起 









Penalty value 


reuse value 


suppress time 
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作用 ， 那 么 当 不 同 设备 的 衰减 参数 不 一 臻 时， 将 会 导致 路 由 表 不 一 致 。 
配置 路 由 衰减 : 


[Huaweil bgp 100 

[Huawei-bgp] dampening 10 1000 2000 5000 

说 明 : 

上 述 配 置 分 别 为 半衰期 10 分 钟 、 使 用 阔 值 1000、 抑 制 阅 值 2000、 最 大 惩罚 值 5000。 
所 指定 的 reuse、suppress、ceiling 必须 满足 条 件 :reuse<suppress<ceiling。 


查看 路 由 衰减 参数 : 


<Huawei> display bgp routing-table dampening parameter 
Maximum Suppress Time(in second) : 3973 


Ceiling Value : 16000 
Reuse Value :750 
HalfLife Time(in second) : 900 
Suppress-Limit :2000 
查看 衰减 的 路 由 : 


<Huawei> display bgp routing-table dampened 
BGP Local router ID is 223.1.41,102 
Status codes: *-valid, >-best, d-damped 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP., ?-incomplete 
Total Number of Routes: 8 


Network From Reyse Path/Origin 
d_ 8.6.244.0/23 223.1.41.247 01:06:25 65534 4837 174 11096 6356i 
d 9.17.79.0/24 223.1.41.247 01:06:25 65534 837 3356 23504 29777i 
d 9.17.110.0/24 223.1.41.247 01:06:25 65534 837 3356 23504 29777i 
d 61.57.144.0/20 223.1.41.247 01:06:25 65534 4837 10026 9924 18429,18429i 
d 63.76.216.0/24 223.1.41.247 01:06:25 65534 4837 701 26959i 
d 63.78.142.0/24 223.1,41.247 01:06:25 655344837 701 26959i 
d 63.115.136.0/23 223.1.41.247 01:06:25 65534 4837 701 26956i 
d 65.243.170.0/24 223.1.41.247 01:06:25 655344837 701 26959i 
说 明 : 


如 果 标 记 为 d 说 明 路 由 被 抑制 ，*> 已 经 没有 了 ， 该 路 由 已 经 不 被 选择 为 最 优 ， 无 法 通 
告 ,并 且 路 由 器 最 后 收 到 的 是 update 报 文 , 如 果 标 记 为 h 说 明 路 由 器 最 后 收 到 的 是 withdraw 
报 文 。 


6.4.6 ”BGP 设计 场景 


场景 1: 客户 多 归属 同一 运营 商 BGP 部 嗜 
场景 描述 : 如 图 6-53 所 示 ， 某 企业 两 条 链 路 连接 同一 运营 商 ， 其 中 ，R1 和 R2 属于 
客户 AS 100, R3 与 R4 属于 ISP 为 AS 200,R5 和 R6 分 别 在 AS 300 和 AS 400 中 。Line-1l 
为 Rl 与 R3 的 链 路 〈 主 链 路 )，Line-2 为 R2 与 R4 的 链 路 〈 备 份 链 路 )。 
需求 : 
Ss AS 100 只 接收 AS 200 的 本 地 路 由 及 AS 300 的 路 由 , 其 他 AS 的 明细 路 由 不 
接收 。 
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4 对 于 所 有 到 达 AS 200 和 AS 300 的 出 业务 流量 ，AS 100 应 该 选择 Line-1 链 路 ， 
如 该 链 路 发 生 故 障 ， 应 该 切换 到 Line-2 链 路 ; 而 到 达 AS 400 应 该 选择 Line-2 
链 路 。 
4 进入 到 AS 100 的 流量 应 该 遵循 最 优 原 则 ， 来 自 AS 200 本 地 和 AS 300 的 流量 
应 该 选择 Line-l 链 路 访问 Rl 的 网 段 ,AS 400 的 流量 应 该 选择 Line-2 链 路 访问 
R2 的 网 络 。 
4 不 允许 客户 的 AS 作为 穿越 AS。 


177.1.1.0/24 二 =: 199.1.1.0/24 


35.1.1.0/24 46.1.1.0/24 


AS 200 
cm “说 ee“ 人 放 
30.30.1.0/24 40.40.1.0/24 
34.1.1.0/24 
ISP 


AS 100 


100.1.1.0/24 >. 12.1.1.0/24 so 202.2.2.0/24 
100.1.3.0/24 customer 202.2.4.0/24 





图 6-53 客户 多 归属 同一 运营 商 BGP 部 署 


配置 示例 : 
R1 的 配置 : 
bgp 100 
peer 2.2.2.2 as-number 100 
peer 2.2.2.2 connect-interface LoopBack0 
peer 13.1.1.3 as-number 200 
# 
ipv4-family unicast 
undo synchronization 
network 100.1.1.0 255.255.255.0 
network 100.1.3.0 255.255.255.0 
peer 2.2.2.2 enable 
peer 2.2.2.2 Next-hop-local 
peer 13.1.1.3 enable 
peer 13.1.1.3 as-path-filter 1 export 
peer 13.1.1.3 route-policy OUTBOUND import 
peer 13.1.1.3 route-policy INBOUND export 
# 
acl number 2000 
rule 10 permit source 100.1.1.0 0.0.2.0 
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apply cost 100， 
# 


ip as-path-filter 1 permit ^$ 

ip as-path-filter 4 permit 400$ 

关于 路 由 策略 修改 的 说 明 如 下 。 

针对 出 业务 流 : 

在 Rl 的 入 方向 调用 路 由 策略 OUTBOUND ,影响 出 业务 的 流量 , 路 由 策略 的 node 10 
中 匹配 了 as-path-filter 3, 这 里 通过 AS 路 径 过 滤器 匹配 了 源 自 AS 200 和 AS 300 的 路 由 ， 
修改 了 本 地 优先 级 属性 为 200。 而 来 自 AS 100 的 R2 是 另外 一 个 出 口 ,但 是 默认 值 为 100， 
那么 从 AS 100 发 往 AS 200 和 AS 300 的 数据 流 将 会 选择 R1 作为 出 口 转发 。 路 由 策略 
OUTBOUND 的 node 20 放行 其 他 流量 ， 没 有 对 其 他 流量 做 任何 修改 。 

在 R2 的 入 方向 也 调用 了 路 由 策略 OUTBOUND， 在 路 由 策略 node 10 中 匹配 了 
as-path-filer 3， 通 过 AS 路 径 过 滤器 匹配 了 始 发 于 AS 400 的 路 由 ， 将 其 本 地 优先 级 修改 
为 200， 要 优 于 R1 默认 的 100， 那 么 AS 100 要 去 往 AS 400 的 网 段 将 会 选择 R2 转发 。 
通过 修改 本 地 优先 级 属性 来 满足 去 往 ISP 时 将 Line-1 作为 主 链 路 ,Line-2 作为 备份 链 路 ， 
且 提 供 了 宛 余 性 ， 当 主 链 路 失效 可 以 走 备份 链 路 。 

针对 入 业务 流量 : 

在 Rl 的 出 方向 调用 路 由 策略 INBOUND，node 10 中 匹配 了 ACL 2000,， 该 ACL 匹 
配 了 Rl 的 两 条 网 段 ,调整 了 MED 值 为 50, 而 匹配 到 R2 的 两 条 网 段 将 MED 值 设 为 100。 
同时 在 R2 上 出 方向 也 调用 路 由 策略 INBOUND，node 10 中 匹配 了 ACL 2000， 匹 配 了 
R2 的 两 条 网 段 ， 调 整 了 MED 值 为 50， 而 匹配 到 R1 的 两 条 网 段 将 其 MED 值 设 为 100， 
确保 AS 200 访问 AS 100 时 选择 Line-1 链 路 到 达 R1 的 两 条 网 段 、Line-2 链 路 到 达 R2 
的 两 条 网 段 。 

在 ISP 中 ， 如 果 R3 与 R4 的 链 路 失效 了 ， 外 部 的 AS 将 会 选择 AS 100 作为 唯一 的 
传输 路 径 。 例 如 ，AS 300 去 往 AS 400 的 数据 流 将 会 穿越 客户 AS 100 到 达 。 为 了 防止 该 
现象 的 发 生 ， 在 R1 和 R2 上 分 别针 对 R3 和 R4 的 出 方向 应 用 as-path-filter， 该 AS 过 波 
器 通过 ^$ 来 匹配 空 AS-PATH 号 (因为 AS 100 向 外 通告 路 由 时 不 会 将 自己 的 AS 号 加 入 
进 AS_PATH 列表 中 )。 此 做 法 用 来 将 仅仅 始 发 于 AS 100 的 路 由 通告 给 R3 和 R4， 而 来 
自 其 他 AS 的 路 由 如 AS 200、AS 300、AS 400， 在 AS_PATH 列表 中 必然 会 有 AS 号 ， 
因此 都 被 拒绝 。R3 和 R4 也 不 会 从 R1 和 R2 收 到 来 自 AS 300 或 者 AS 400 的 路 由 , 即使 
ISP 之 间 链 路 失效 了 ，AS 100 不 会 成 为 穿越 AS。 

R1 和 了 R2 的 BGP 路 由 表 : 

<Rl>display bgp routing-table 

BGP Local router ID is 12.1.1.1 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 


Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 9 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 30.30.1.0/24 1 0 200 0 200i 
*> 40.40.1,0/24 13.1.1.3 200 0 200i 
*> “100.1.1.0/24 0.0.0.0 0 0 i 
*> 100.1.3.0/24 0.0.0.0 0 0 i 
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*> 77.1.1.0/24 13.1.13 200 0 200 300i 
#24 99.1.1.0 2.222 200 0 200 400i 
21 .13 0 200 400i 
Wo 202,22.0 22.2.2 0 100 0 i 
*>i 202.2.4.0 2 0 100 0 i 
<R2>display bgp routing-table 
BGP Local router ID is 12.1.1.2 
Status codes; *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 11 
Network NextHop MED LocPrf ~ PrefVal Path/Ogn 
*>i 30.30.1.0/24 Ld 0 200 0 200i 
* 24.1.1.4 0 200i 
*>i 40.40.1.0/24 1.1.1.1 200 0 200i 
类 24.1.1.4 0 0 200i 
*>i 100.1.1.0/24 | 0 100 0 i 
*>i 100.1.3.0/24 Llll 0 100 0 i 
wi T1771.1:0/24 i 200 0 200 300i 
24.1.1.4 0 200 300i 
*» .190910 24.1.1.4 200 0 200 400i 
tg 200,2.2.0 0.0.0.0 0 0 i 
$y 00RD 0.0.0.0 0 0 i 


R1 到 达 AS 200 和 AS 300 都 选择 通过 R3 转发 ， 且 本 地 优先 级 都 被 修改 为 200， 而 
R2 也 将 选择 R1 去 往 AS 200, 因为 Line-1 为 主 链 路 , 但 去 往 AS 400 选择 了 Line-2 链 路 。 
R3 和 R4 的 BGP 路 由 表 : 


<R3>display bgp routing-table 
BGP Local router ID is 13.1.1.3 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin ; i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 10 


Network NextHop MED LocPrf PrefVal Path/Ogn 

*> -30,30.1.0/24 0.0.0.0 0 0 i 

*>i 40.40.1.0/24 4.4.4.4 0 100 0 i 

*> 100.1.1.0/24 13.1,1:1 50 0 100i 
*> 100.1.3.0/24 T3111 50 0 100i 
> F1024 S51,15 0 0 300i 
Yi 11989109 4.4.4.4 0 100 0 400i 
*>j 202.2.2.0 4.4.4.4 50 100 0 100i 
13.1.1,1 100 0 100i 
*>1 202.2.4.0 4.4.4.4 50 100 0 100i 
和 13.1.1.1 100 0 100i 


<R4>display bgp routing-table 
BGP Local router ID is 24.1.1.4 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 10 


Network NextHop MED LocPrf PrefVal Path/Ogn 
+>i 30.30.1.0/24 .3.3.3 0 100 0 i 
*> 40.40.1.0/24 0.0.0.0 0 0 i 
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*>i 100.1.1.0/24 3333 50 100 


0 100i 
24.1.1.2 100 0 100i 
*>i 100.1.3.0/24 53 50 100 0 100i 
向 24.1.1.2 100 0 100i 
*>i 177.1.1.0/24 3.3.3.3 0 100 0 300i 
4> “199.&k0 46.1.1.6 0 0 400i 
> 202.22.0 24.1.1.2 50 . 100i 
*> 202.2.4.0 24.1.1.2 50 100i 


R3 的 BGP 表 中 可 以 看 到 去 往 R1 从 Line-1 链 路 进入 ， 且 MED 值 修改 为 50， 去 往 
R2 经 过 Line-2 链 路 进入 ，R4 去 往 R1 从 Line-1 链 路 进入 ， 去 往 R2 从 Line-2 链 路 进入 。 
场景 2: 不 同 运营 商 的 客户 间 互 为 主 备 部 署 案例 
场景 描述 : 如 图 6-54 所 示 , 分 别 隶 属于 AS 100 和 AS 200 的 两 家 客户 设备 R1 和 R2 
分 别 连 接着 不 同 运营 商 设 备 R3 和 R4。 
4 ”对 于 客户 的 出 业务 流量 : 客户 AS (AS 100 和 AS 200 ) 访问 运营 商 时 ，AS 100 
选择 从 ISP 1 访问，AS 200 选择 从 ISP 2 访问 。 但 是 当 Line-1 和 Line-2 链 路 发 
生 故 障 时 ， 客 户 AS 之 间 能 够 互 为 备份 。 
e 对 于 客户 的 入 业务 流量 : ISP 1 选择 经 过 Line-1 链 路 进入 到 AS 100， 而 ISP 2 
选择 经 过 Line-2 链 路 进入 到 AS 200。ISP 1 访问 AS 200 需要 经 过 ISP 2， 而 不 
能 将 AS 100 作为 穿越 的 AS。 同 理 ，ISP2 访问 AS 100 需要 经 过 ISP 1 访问。 
9 ”如果 ISP 1 与 ISP 2 之 间 的 链 路 出 现 故障 ， 客 户 的 AS 能 够 互 为 备份 ， 以 实现 
元 余 。 
9 客户 之 间 互 相 提 供 主 备 链 路 。 
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图 6-54 不 同 运营 商 客户 间 互 为 主 备 部 署 


R1 的 配置 ; 


bgp 100 

peer 12.1.1.2 as-number 200 

peer 13.1.1.3 as-number 300 

# 

ipv4-family unicast 
undo synchronization 
network 101.10.1.0 255.255.255.0 
network 102.10.1.0 255.255.255.0 
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peer 12.1.1.2 enable 
peer 13.1.1.3 enable 
peer 13.1.1.3 as-path-filter 1 export 
peer 13.1.1.3 route-policy SET_PrefVal import 
peer 13.1.1.3 route-policy SET COMMUNITY export 
peer 13.1.1.3 advertise-community 
# 
route-policy SET_COMMUNITY permit node 10 
if-match as-path-filter 2 
apply community 200:200 
从 
route-policy SET_COMMUNITY permit node 20 
# 
route-policy SET_PrefVal permit node 10 
if-match as-path-filter 3 
apply preferred-value 150 
# 
route-policy SET_PrefVal permit node 20 
让 
ip as-path-filter 1 permit ^$ 
ip as-path-filter 1 permit 200$ 
ip as-path-filter 2 permit 200$ 
ip as-path-filter 3 permit 400$ 
R2 的 配置 : 
bgp 200 
peer 12.1.1.1 as-number 100 
peer 24.1.1.4 as-number 400 
如 Kx 
ipv4-family unicast 
undo synchronization 
network 201.10.1.0 
network 202.10.1.0 
peer 12.1.1.1 enable 
peer 24.1.1.4 enable 
peer 24.1.1.4 as-path-filter 1 export 
peer 24.1.1.4 route-policy SET_ PrefVal import 
peer 24.1.1.4 route-policy SET COMMUNITY export 
peer 24.1.1.4 advertise-community 
# 
route-policy SET COMMUNITY permit node 10 
if-match as-path-filter 2 
apply community 100:100 
# 
route-policy SET_COMMUNITY permit node 20 
蕉 
route-policy SET _PrefVal permit node 10 
if-match as-path-filter 3 
apply preferred-value 150 
加 
route-policy SET_PrefVal permit node 20 
# ; 
ip as-path-filter 1 permit ^$ 
ip as-path-filter 1 permit _1008 
ip as-path-filter 2 permit _100$ 
ip as-path-filter 3 permit _300$ 
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关于 路 由 策略 修改 的 说 明 如 下 。 

(1) 针对 出 业务 流量 : 在 R1 上 使 用 路 由 策略 SET_PrefVal 来 调整 首选 权 值 , 在 node 
10 中 匹配 了 as-path-filter 3， 该 路 径 过 滤器 匹配 到 了 源 自 AS 400 的 流量 ， 将 其 首选 权 值 
调整 为 150，node 20 放行 其 他 路 由 ， 没 做 任何 修改 。 由 于 从 R2 也 可 以 访问 到 AS 400， 
为 了 防止 从 客户 之 间 穿 越 ， 优 先 选 择 从 AS 300 去 往 AS 400， 修 改 后 的 首选 权 值 相 比 默 
认 的 100 要 更 大 ， 因 此 RI1 将 会 选择 从 AS 300 转发 数据 流 到 AS 400。R2 同样 也 使 用 了 
路 由 策略 SET_PrefVal 策略 调整 源 自 AS 300 的 路 由 , 使 其 优先 选择 经 过 AS 400 去 往 AS 


300。 当 Line-1 和 Line-2 链 路 出 现 故 障 能 够 满足 宛 余 时 ，R1 和 R2 之 间 的 链 路 可 以 作为 
备份 链 路 。 


(2) 针 对 入 业务 流量 : ISP 1 需要 经 过 Line-1 链 路 访问 AS 100, ISP 2 需要 经 过 Line-2 
链 路 访问 AS 200。 在 R1 上 使 用 路 由 策略 SET_COMMUNITY 修改 团体 属性 , 在 node 10 
中 匹配 了 as-path-filter 2， 该 路 径 过 滤器 匹配 到 了 源 自 AS 200 的 路 由 ， 将 其 团体 属性 设 
者 为 200:200，node 20 放行 其 他 路 由 ， 不 做 任何 设置 。 在 R2 上 同样 使 用 路 由 策略 
SET_COMMUNITY 修改 团体 属性 ， 将 源 自 AS 100 路 由 的 团体 属性 设置 为 100:100。 此 
做 法 目的 是 为 了 能 够 让 ISP 1 和 ISP2 收 到 路 由 后 根据 所 设置 的 团体 属性 来 调整 路 由 。 

(3) 为 了 保证 ISP 之 间 不 能 选择 客户 的 AS 作为 穿越 AS， 分 别 在 R1 和 R2 上 使 用 
路 径 过 滤器 as-path-filter 1， 该 路 径 过 滤器 仅 允 许 了 AS 100，AS 200 的 路 由 通告 给 ISP， 
而 不 能 将 ISP 的 流量 穿 过 客户 的 AS 再 次 通告 给 对 方 ISP。 例如, ISP 1 访问 ISP 2 不 能 选 
择 经 过 AS100、AS200 去 访问 。 

查看 R3 的 配置 : 


bgp 300 
peer 13.1.1.1 as-number 100 
~ peer 34.1.1.4 as-number 400 
# 
ipv4-family unicast 
undo synchronization 
network 30.1.1.0 255.255.255.0 
network 30.1.2.0 255.255.255.0 
peer 13.1.1.1 enable 
peer 13.1.1.1 route-policy SET _ LocPref import 
peer 34.1.1.4 enable 
peer 34.1.1.4 advertise-community 
， ， 
route-policy SET_LocPref permit node 10 
if-match community-filter 1 
apply local-preference 50 
# 


route-policy SET_LocPref permit node 20 
# 
ip community-filter 1 permit 200:200 
查看 R4 的 配置 : 
bgp 400 
peer 24.1.1.2 as-number 200 
peer 34.1.1.3 as-number 300 
# 
ipv4-family unicast 
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undo synchronization 
network 40.1.1.0 255.255.255.0 
network 40.1.2.0 255.255.255.0 
peer 24.1.1.2 enable 
peer 24.1.1.2 route-policy SET_LocPref import 
peer 34.1.1.3 enable 
peer 34.1.1.3 advertise-community 
# 
route-policy SET_LocPref permit node 10 
if-match community-filter 1 
apply local-preference 50 

# 

route-policy SET_LocPref permit node 20 

# 

ip community-filter 1 permit 100:100 

配置 说 明 : 

在 R3 上 通过 路 由 策略 SET_LocPref 匹配 到 community-filter 1， 在 该 团体 属性 过 滤 
列表 中 匹配 到 团体 属性 为 200:200， 这 个 值 在 R1 发 送 给 R3 的 路 由 中 被 修改 为 了 该 值 ， 
也 就 是 匹配 了 所 有 AS 200 的 路 由 。 通 过 路 由 策略 node 10 中 ， 将 本 地 优先 级 调整 为 50， 
node 20 放行 其 他 路 由 ， 不 做 任何 设置 。 由 于 R3 分 别 可 以 从 R1 和 R4 去 访问 AS 200， 
但 是 从 R1 来 的 关于 AS 200 的 路 由 被 调整 了 本 地 优先 级 为 50， 而 R3 从 R4 收 到 的 路 由 
本 地 优先 级 未 做 修改 ， 默 认为 100， 因 此 R3 将 会 优先 选择 AS 400 去 访问 AS 200。 针 对 
其 他 的 路 由 ， 比 如 AS 100 的 路 由 仍然 选择 R1 访问， 由 于 AS_PATH 路 径 长 度 的 问题 。 
在 R4 上 同样 通过 路 由 策略 SET_LocPref, 将 R2 传递 给 R4 的 关于 AS 100 的 路 由 本 地 优 
先 级 修改 为 50， 那 么 R4 将 会 优先 选择 R3 去 访问 AS 100， 而 访问 AS 200 直接 通过 R2 
访问 。 

通过 在 R3 和 R4 修改 本 地 优先 级 来 调整 客户 的 入 业务 流量 , 并 且 实 现 了 将 优先 选择 
ISP 作为 主要 的 链 路 ， 不 能 让 客户 的 AS 作为 穿越 AS。 

查看 R1 和 R2 路 由 表 : 


<R1>display bgp routing-table 
BGP Local router ID is 12.1.1.1 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 14 


Network NextHop MED LocPrf ~ PrefVal Path/Ogn 
*> 30.1.1.0/24 13.1.1.3 0 0 300i 
12.1.1.2 0 200 400 300i 
*> 30.1.2.0/24 13.1.1.3 0 0 300i 
* 12.1.1.2 0 200 400 300i 
*> 40.1.1.0/24 13.1.13 150 300 400i 
* E242 0 200 400i 
*> 40.1.2.0124 131'3 150 -300 400i 
* 12.1.1.2 0 200 400i 
*> 101.10.1.0/24 0.0.0.0 0 0 i 
*#> 102.10.1.0/24 0.0.0.0 0 0 i 
*> 201.10.1.0 12.1.1.2 0 0 200i 
13.1.1.3 0 300 400 200i 
*> 202.10.1.0 12.1.1.2 0 0 200i 
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<R2>display bgp routing-table 
BGP Local router ID is 12.1.1.2 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?2-incomplete 
Total Number of Routes: 14 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 30.1.1.0/24 24.1.1.4 150 400 300i 
" 12.1,1,1 0 100 300i 
*> 30.1,2.0/24 24.1.1.4 150 400 300i 
12.1.1,1 0 100 300i 
*> ”40.1.1.0/24 24.1.1.4 0 0 400i 
he 12.1.1.1 0 100 300 400i 
*> 40.1.2.0/24 24.1.1.4 0 0 400i 
Po 0 100 300 400i 
*> “101.10.1.0/24 12.1.1.1 0 0 100i 
24.1.1.4 0 400 300 100i 
*> 102.,10.1.0/24 12.1.L4 0 0 100i 
24.1.1.4 0 400 300 100i 
#> 201.10;:1.0 0.0.0.0 0 
4 2202.404.0 0.0.0.0 0 


观察 R1 的 BGP 路 由 表 ， 到 达 400 的 网 段 40.1.1. 0/24、 40.1.2.0/24 首选 权 值 设 
为 150， 优 先 选择 从 ISP 1 转发 。R2 到 达 AS 300 的 网 段 30.1.1.0/24、30.1.2.0/24 ss 
值 设 置 为 150， 优 先 选择 从 ISP 2 转发 。 

查看 R3 和 R4 的 BGP 路 由 表 : 


<R3>display bgp routing-table 
BGP Local router ID is 13.1.1.3 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 10 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 30.1.1.0/24 0.0.0.0 0 0 i 
*> 30.1.2.0/24 0.0.0.0 0 0 i 
*> 40.1.1.0/24 34.1.1.4 0 0 400i 
#> ”40.1.2.0/24 34.1.1.4 0 0 400i 
*> 101.10.1.0/24 Bl 0 0 100i 
*> 102.10.1.0/24 13,1.1 0 0 100i 
"> 20110.10 34.1.1.4 0 400 200i 
* 13.1.1.1 50 0 100 200i 
*> ”202.10.1.0 34.1.1.4 0 400 200i 
13.1.1.1 50 0 100 200i 
<R4>display bgp routing-table 


BGP Local router ID is 24.1.1.4 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 10 
Network NextHop MED LocPrf ~ PrefVal Path/Ogn 
*> "301.1.0/24 34,1.13 0 0 300i 
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t> 30.1.2.0/24 34.1.13 0 0 300i 
*> 40.1.1.0/24 0.0.0.0 0 0 i 

4> 40.1.2.0/24 0.0.0.0 0 0 i 

*> 101.10.1.0/24 34.1.1.3 0 300 100i 
- 24.1.1.2 50 0 200 100i 
*> 102.10.1.0/24 34.1.1.3 i 0 300 100i 
* 24.1.1.2 ; 50 0 200 100i 
*> 201.10.1.0 24.1.1.2 下 .0 200i 
*> 202.10.1.0 24.1.1.2 Po 200i 


观察 R3 的 BGP 路 由 表 ， 到 达 A 200 的 网 段 201.10.1.0/24、202.10.1.0/24 的 本 地 优 
先 级 为 50， 低 于 默认 的 100， 因 此 选择 经 过 R4 转发 流量 。R4 到 达 AS 100 的 网 段 
101.10.1.0/24、102.10.1.0/24 选择 经 过 R3 转发 。 

水 络 : 

上 面 通过 两 个 场景 主要 介绍 了 MED 属性、 团体 属性 、 本 地 优先 级 属性 、 首 选 权 值 、 团 
体 属性 列表 、 路 径 过 滤器 工具 如 何 结 合 使 用 。 规 划 和 设计 网 络 时 需要 有 兄 余 备份 路 径 ， 
且 充 分 考虑 到 对 称 流量 .。 


6.5 BGP 的 特性 


6.5.1 BGP 的 安全 性 


BGP 使 用 认证 和 GTSM (Generalized TTL Security Mechanism ) 两 个 方法 保证 BGP 
对 等 体 间 的 交互 安全 。 

BGP 的 认证 

为 了 保证 BGP 协议 免 受 攻击 ，BGP 认证 分 为 MD5 认证 和 Keychain 认证 ， 对 BGP 对 
等 体 关系 进行 认证 是 提高 安全 性 的 有 效 手段 。MDS5 认证 只 能 为 TCP 连接 设置 认证 密码 ， 而 
Keychain 认证 除了 可 以 为 TCP 连接 设置 认证 密码 外 ， 还 可 以 对 BGP 协议 报 文 进行 认证 。 

e MD5 认证 特点 

MD5 算法 配置 简单 ， 配 置 后 生成 单一 密码 ， 需 要 人 为 干预 才 可 以 切换 密码 ， 适 用 于 
需要 短 时 间 加 密 的 网 络 。 

配置 命令 : 

peer { group-name | ipv4-address | ipv6-address } password { cipher cipher-password | simple simple-password } 

说 明 : 

BGP 使 用 TCP 作为 传输 层 协 议 ， 为 提高 BGP 的 安全 性 ， 可 以 在 建立 TCP 连接 时 进行 
MD5 认证 。BGP 的 MD5 认证 只 是 为 TCP 连接 设置 MD5 认证 密码 ， 而 认证 由 TCP 来 提供 。 


e ”Keychain 认证 特点 

Keychain 具有 一 组 密码 ， 可 以 根据 配置 自动 切换 ， 但 是 配置 过 程 较为 复杂 ， 适 用 于 
对 安全 性 能 要 求 比较 高 的 网 络 。 

配置 命令 : 


peer { group-name | ipv4-address | ipv6-address } keychain keychain-name 
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说 明 : 

配置 BGP Keychain 认证 前 ， 必 须 配 置 keychain-name 对 应 的 Keychain 认证 ， 且 必须 配置 
相同 的 加 密 算 法 ， 否 则 TCP 连接 不 能 正常 建立 。BGP MD5 认证 与 BGP Keychain 认证 互 斥 。 

BGP GTSM 

GTSM 为 防止 攻击 者 模拟 真实 的 BGP 协议 报 文 对 设备 进行 攻击 ， 可 以 配置 GTSM 
功能 检测 人 P 报 文 头 中 的 TTL 值 。 根据 实际 组 网 的 需要 , 对 于 不 符合 TTL 值 范围 的 报 文 ， 
GTSM 可 以 设置 为 通过 或 丢弃 。 这 样 就 避免 了 网 络 攻击 者 模拟 的 “合法 ”BGP 报 文 占用 
CPU。BGP GTSM 检测 IP 报 文 头 中 的 TTL (time-to-live) 值 是 否 在 一 个 预先 设置 好 的 特 
定 范围 内 ， 并 对 不 符合 TTL 值 范 围 的 报 文 进行 允许 通过 或 丢弃 的 操作 ， 从 而 实现 了 保护 
IP 层 以 上 业务 、 增 强 系 统 安全 性 的 目的 。 

例如 : 将 记 GP 对 等 体 的 报 文 的 TTL 的 范围 设 为 234 一 255。 当 攻击 者 模拟 合法 的 
BGP 协议 报 文 ， 对 设备 不 断 地 发 送 报 文 进行 攻击 时 ，TTL 值 必然 小 于 254。 如 果 没 有 启 
用 BGP GTSM 功能 ,设备 收 到 这 些 报 文 后 ,发 现 是 发 送 给 本 机 的 报 文 , 会 直接 上 送 控制 
层面 处 理 。 这 时 将 会 因为 控制 层面 处 理 大 量 攻击 报 文 ， 导 致 设备 CPU 占用 率 高 ， 系 统 异 
常 繁忙 。 如 果 开 启 BGP GTSM 功能 ， 系 统 会 对 所 有 BGP 报 文 的 TTL 值 进行 检查 。 丢 弃 
TTL 值 小 于 254 的 攻击 报 文 ， 从 而 避免 了 网 络 攻击 报 文 占用 CPU。 

配置 在 BGP 进程 中 启用 GTSM 命令 : 

peer { group-name | ipv4-address | ipv6-address } valid-ttl-hops [ hops ] 

说 明 : 

GTSM 是 对 称 的 ， 需 要 在 对 等 体 双 方 都 要 配置 。 


配置 未 匹配 GTSM 策略 的 报 文 的 缺 省 动作 命令 : 


gtsm default-action { drop |pass}  - 


说 明 : 
缺 省 情况 下 ， 未 匹配 的 GTS5M 策略 可 以 通过 过 滤 。 


6.5.2 ”BGP 的 可 靠 性 


BGP ORF 

ORF (Outbound Route Filtering) 出 口 路 由 过 滤 , 在 RFC5291、RFC5292 规定 了 BGP 
基于 前 级 的 路 由 过 滤 能 力 ， 能 将 本 端 设备 配置 的 基于 前 级 的 入 口 策略 通过 路 由 刷新 报 文 
发 送 给 BGP 邻居 。BGP 邻居 根据 这 些 策 略 构 造 出 口 策 略 ， 在 路 由 发 送 时 对 路 由 进行 过 
滤 。 这 样 不 仅 避 免 了 本 端 设备 接收 大 量 无 用 的 路 由 ， 降低 了 本 端 设备 的 CPU 使 用 率 , 还 
有 效 减少 了 BGP 邻居 的 配置 工作 ， 降 低 了 链 路 带宽 的 占用 率 。 

配置 ORF 的 命令 : 

peer [ipv4-address] eapability-advertise orf ip-prefix both 

如 图 6-55 所 示 ，R1 分 别 通告 了 四 个 网 段 到 BGP， 并 传递 给 AS 200 的 路 由 R2， 
R2 不 需要 接收 所 有 四 条 路 由 ， 在 R2 的 入 方向 使 用 前 级 过 滤 策 略 对 102.1.1.0/24 - 
103.1.1.0/24 两 条 网 段 实现 过 滤 。 如 果 在 没有 使 用 BGP ORF 策略 工具 的 情况 下 ，RI 仍然 
会 将 路 由 发 送出 去 ， 只 是 在 R2 入 方向 查看 到 策略 以 后 再 进行 过 滤 ， 这 样 造成 链 路 带宽 
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的 浪费 。 而 在 两 端 使 用 BGP ORF 特性 以 后 ，R2 将 会 通过 route-refresh 报 文告 知 R1 本 端 
需要 过 滤 的 路 由 条 目 ，R1 收 到 后 就 在 出 口 过 滤 掉 路 由 ， 而 不 会 发 出 去 ， 从 而 可 以 减少 链 
路 带宽 的 占用 。 


100.1.1.0/24 
101.1.1.0/24 


102.1.1.0/24 
103.1.1.0/24 





图 6-55 _ORF 场景 图 
查看 R1 和 R2 的 配置 : 


<R1>display current-configuration 
bgp 100 
peer 12.1.1.2 as-number 200 
# 
ipv4-family unicast 
undo synchronization 
network 100.0.0.0 
network 100.1.1.0 255.255.255.0 
network 101.1.1.0 255.255.255.0 
network 102.1.1.0 255.255.255.0 
network 103.1.1.0 255.255.255.0 
peer 12.1.1.2 enable 





<R2>display current-configuration 
bgp 200 | 
peer 12.1.1.1 as-number 100 
# 
ipv4-family unicast 
undo synchronization 
peer 12.1.1.1 enable 
peer 12.1.1.1 ip-prefix Denyroute import 
# ， 
ip ip-prefix Denyroute index 10 deny 102.0.0.0 7 greater-equal 24 less-equal 24 
ip ip-prefix Denyroute index 20 permit 0.0.0.00 less-equal 32 
在 R2 通过 前 级 过 滤 列 表 策略 工具 将 102.1.1.0/24 和 103.1.1.0/24 两 条 路 由 过 滤 掉 ， 
其 他 路 由 放行 。 


查看 未 启用 BGP ORF 特性 时 ，R1 通告 给 R2 及 R2 收 到 的 BGP 路 由 。 
<R1>display bgp routing-table peer 12.1.1.2 advertised-routes 
BGP Local router ID is 12.1.1.1 
Status codes: *-valid, >-best, d-damped， 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 4 


Network NextHop MED LocPrf & PrefVal Path/Ogn 
*> 100.1.1.0/24 1211.1 0 0 100i 
*> 101.1.1.0/24 12.114 0 0 100i 
*> ”102.1.1.0/24 12.11.1 0 0 100i 
*> “103.1.1.0/24 it2111 0 0 100i 


387 





| HCIE 路 由 交换 学 习 指 南 | 


<R2>display bgp routing-table peer 12.1.1.1 received-routes 
BGP Local router ID is 12.1.1.2 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 2 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> -100.1.1.0/24 12.1.1.1 0 0 100i 
*> 101.1.1.0/24 12.1.1.1 0 0 100i 
可 见 未 启用 BGP ORF 时 ，R1 仍然 能 够 将 路 由 通告 出 去 ， 占 用 了 链 路 带宽 。 
在 两 端 启用 BGP ORF 功能 : 
<R1>display current-configuration 
bgp 100 


peer 12.1.1.2 capability-advertise orf ip-prefix receive 


<R2>display current-configuration 
bgp 200 

peer 12.1.1.1 capability-advertise orf ip-prefix send 
R1 配置 capability-advertise orf ip-prefix receive 用 于 接收 ORF 报 文 ，R2 配置 


capability-advertise orf ip-prefix send 用 于 发 送 ORF 报 文 , 当 R2 不 需要 接收 不 必要 的 路 由 
更 新 时 ， 通 过 route-refresh 报 文通 知 R1, 在 Rl 的 出 口 构建 过 滤 策 略 ， 不 让 RI1 发 送 路 由 
出 去 


说 明 : 

配置 命令 后 面 的 参数 receive 表示 只 允许 接收 ORF 报 文 ，send 表示 只 允许 发 送 ORF 报 
文 ， 另 外 还 有 both 表示 可 以 接收 和 发 送 。cisco-compatible 参数 用 于 在 能 力 协商 时 按照 Cisco 
的 能 力 码 进行 协商 。 如 果 不 加 cisco-compatible 参数 ， 则 按照 RFC 规定 的 标准 ORF 能 力 码 进 
行 能 力 协商 。 如 果 两 端 分 别 采 用 RFC 标准 的 ORF 能 力 和 Cisco 的 ORF 能 力 ， 则 ORF 协商 失 
败 。 注 意 在 配置 BGP ORF 时 ， 需 要 两 端 同时 配置 ， 否 则 不 生效 ， 配 置 完 以 后 BGP 邻居 将 
会 重 置 。 





~ Internet protoco e120 2 1 (12. EE OT RE PE A 
9 Transmission Control Protocol, Sre Port: 50333 (50333), Dst Port: bgp (179), Seq: 74, Ack: 74, Len: 44 
© Border Gateway Protoco] > LL 
日 ROUTE -REFRESH Message 
Marker: 16 bytes 
Length: 44 bytes 
Type: ROUTE-REFRESH Message (5) 
Address family identifier: IPv4 (1) 
Reserved: 1 byte 
subsequent address family identifier: Unicast (1) 
a ORF information (21 bytes) 
ORF flag: Immediate 
ORF type: UNKNOWN 
ORF len: 17 bytes 
ORFENtry-Unknown (17 bytes) 


查看 R1 发 送 的 路 由 : 
<R1>display bgp routing-table peer 12.1.1.2 advertised-routes 
BGP Local router ID is 12.1.1.1 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 2 
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Network NextHop MED ,LocPrf PrefVal Path/Ogn 
*> 100.1.1.0/24 有 1 人 
*> 101.1.1.0/24 也 .1 


通过 观察 可 以 看 到 启用 BGP et 特性 后 的 变化 ， Rf 根据 route-refresh 报 文 ， 构 建 
了 出 口 过 滤 策 略 ， 不 再 发 送 102.1.1.0/24 和 103.1.1.0/24 这 两 条 路 由 ， 从 而 节约 了 链 路 带 
宽 的 占用 。 

BGP 与 BFD 的 联动 

BGP 是 建立 在 TCP 层 之 上 的 协议 ， 只 能 通过 周期 性 的 向 对 等 体 发 送 Keepalive 报 文 
来 实现 邻居 检测 。 但 这 种 机 制 检测 到 故障 所 需 时 间 比 较 长 ， 超 过 1s。 当 数据 达到 吉 比 特 
速率 级 时 ， 这 么 长 的 检测 时 间 将 导致 大 量 数据 丢失 ， 无 法 满足 电信 级 网 络 高 可 靠 性 的 需 
求 。 为 了 解决 上 述 问 题 ，BGP 引入 了 BGP 与 BFD 功能 。BFD 检测 是 毫秒 级 ， 可 以 在 
50ms 内 通报 BGP 对 等 体 间 链 路 的 故障 ， 因 此 能 够 提高 BGP 路 由 的 收敛 速度 , 保障 链 路 
快速 切换 ， 减 少 流 量 损失 。 

配置 对 等 体 或 对 等 体 组 的 BFD 功能 ， 使 用 缺 省 的 BFD 参数 值 建立 BFD 会 话 。 

Peer { group-name | ipv4-address } bfd enable 

配置 指定 需要 建立 BFD 会 话 的 各 个 参数 值 。 

peer [ipv4-address] bfd [min-tx-interval min-fx-interval | min-rx-interval min-rx-interval | detect-multiplier 
multiplier | wtr wtr-value ] 

说 明 : 

默认 情况 下 ， 华 为 设备 之 间 iBGP 为 多 跳 会 话 。 建 议 华 为 设备 和 默认 iBGP 为 单 跳 会 话 
的 其 他 厂商 设备 对 接 时 ， 只 配置 IGP 与 BFD 联动 会 话 或 者 只 配置 iBGP 与 BFD 联动 会 话 。 
BGP 的 会 话 处 于 Established 状态 时 ，BFD 会 话 才能 建立 。 


BGP Tracking 

为 了 实现 BGP 快速 收敛 , 可 以 通过 配置 BFD 来 探测 邻居 状态 变化 , 但 BFD 需要 全 
网 部 署 ,扩展 性 较 差 ,在 无 法 部 署 BFD 检测 邻居 状态 时 , 可 以 本 地 配置 BGP Peer Tracking 
功能 ， 快 速 感 知 链 路 不 可 达 或 者 邻居 不 可 达 ， 实 现 网 络 的 快速 收敛 。 

通过 部 署 BGP Tracking 功能 ， 调 整 从 发 现 邻居 不 可 达到 中 断 连 接 的 时 间 间 隔 ， 可 以 
抑制 路 由 震荡 引发 的 BGP 邻居 关系 震荡 ， 提 高 BGP 网 络 的 稳定 性 。 

配置 示例 : 指定 对 等 体 的 BGP Tracking 功能 。 

peer { group-name | ipv4-address | ipv6-address } tracking [ delay delay-time ] 

说 明 : 

配置 该 功能 来 实现 网 络 的 快速 收敛 ，delay 表示 发 现 邻 居 不 可 达到 中 断 连接 的 间隔 时 
间 ， 缺 省 值 为 0。 当 值 为 0 时 ， 如 果 发 现 邻 居 不 可 达 后 立刻 中 断 连接 ， 但 是 网 络 中 的 闪 断 
会 导致 IGP 路 由 震荡 ， 一 般 会 将 delay 时 间 设 置 得 比 IGP 路 由 收敛 时 间 要 更 大 。 


BGP 按 组 打包 

由 于 当前 网 络 中 路 由 表 的 快速 增长 , 及 网 络 拓扑 的 复杂 性 , 将 会 导致 BGP 的 邻居 数 
量 较 多 。 特 别 是 一 些 邻 居 数 目 多 且 路 由 量 大 的 场景 下 ， 针 对 路 由 器 需要 给 大 量 的 BGP 
邻居 发 送 路 由 且 大 部 分 邻居 具有 相同 出 口 策 略 的 特点 ， 对 每 个 对 等 体 邻居 都 需要 执行 一 
次 策略 ， 并 且 是 重复 的 过 程 ， 这 样 势必 会 增加 某 些 路 由 器 的 负担 。 
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BGP 按 组 打包 特性 是 将 拥有 共同 出 口 策略 的 BGP 邻居 当 作 是 一 个 打包 组 。 这 样 每 
条 竺 发送 路 由 只 被 打包 一 次 然后 发 给 组 内 的 所 有 邻居 ， 这 样 可 以 提高 转发 效率 。 例 如 有 
一 个 反射 器 有 100 条 路 由 需要 反射 给 100 个 客户 机 。 如 果 按 照 每 个 邻居 分 别 发 送 的 方式 ， 
反射 器 RR 在 向 100 个 客户 机 发 送 路 由 的 时 候 ， 所 有 路 由 被 发 送 的 总 次 数 是 100X100， 
也 就 是 1 万 次 。 使 用 BGP 按 组 打包 特性 ， 路 由 器 发 送 的 总 次 数 为 100X1， 减少 到 以 前 
的 1100， 大 大 提升 了 转发 性 能 ， 提 高 了 效率 。 如 图 6-56 所 示 。 


Internet Router 





图 6-56 ”BGP 按 组 打包 组 网 图 〈 国 际 关口 组 网 案例 ) 


IGW router 会 向 所 有 相 邻 的 AS 发 送 路 由 ， 如 果 IGW Router 支持 BGP 按 组 打包 功 
能 ， 那 么 BGP 的 性 能 将 得 到 很 大 的 提升 。 

所 有 的 Client 与 RR 都 为 iBGP 邻居 ，Client 都 会 将 路 由 发 送 给 RR， 在 RR 上 配置 
按 组 打包 功能 ， 将 会 提升 BGP 的 转发 性 能 。 如 图 6-57 所 示 。 





图 6-57 BGP 按 组 打包 组 网 图 (路 由 反射 器 场景 案例 ) 
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R2 从 R1 收 到 路 由 后 ， 配 置 按 组 打包 特性 可 以 向 所 有 iBGP 对 等 体 发 布 同样 的 策略 ， 
提升 R2 的 性 能 。 如 图 6-58 所 示 。 





图 6-58 ”BGP 按 组 打包 组 网 图 (与 多 个 iBGP 邻居 连接 场景 案例 ) 


6.5.3 MP—-BGP 


BGP 是 一 种 扩展 性 较 强 的 协议 ， 传 统 的 BGP-4 只 能 管理 IPv4 单 播 路 由 信息 ， 但 是 
同样 也 能 够 支持 其 他 网 络 层 协议 (如 IPv6、 组 播 、VPN 等 ) 的 应 用 。BGP 多 协议 扩展 
MP-BGP (MaultiProtocol BGP) 就 是 为 了 提供 对 多 种 网 络 层 协议 的 支持 才 对 BGP-4 进行 
的 扩展 。 目 前 的 MP-BGP 标准 是 RFC4760， 使 用 扩展 属性 和 地 址 族 来 实现 对 IPv6、 组 播 
和 VPN 相关 内 容 的 支持 ，BGP 协议 原 有 的 报 文 机 制 和 路 由 机 制 并 没有 改变 。 

MP-BGP 对 IPv6 单 播 网 络 的 支持 特性 称 为 BGP4+， 对 IPv4 组 播 网 络 的 支持 特性 称 
为 MBGP (Multicast BGP)。MP-BGP 为 IPv6 单 播 网 络 和 IPv4 组 播 网 络 建立 独立 的 拓扑 
结构 ， 并 将 路 由 信息 储存 在 独立 的 路 由 表 中 ， 保 持 单 播 IPv4 网 络 、 单 播 IPv6 网 络 和 组 
播 网 络 之 间 的 路 由 信息 相互 隔离 ， 也 就 实现 了 用 单独 的 路 由 策略 维护 各 自 网 络 的 路 由 。 

MP-BGP 扩展 属性 

为 实现 对 多 种 网 络 层 协议 的 支持 ，BGP 需要 将 网 络 层 协 议 的 信息 反映 到 NLRI 及 
Next _ Hop。 因此 MP-BGP 引入 了 两 个 新 的 可 选 非 过 渡 路 径 属 性 。 

。 MP_REACH_NLRI: Multiprotocol Reachable NLRI (多 协议 可 达 NLRI)， 用 于 

发 布 可 达 的 路 由 信息 及 下 一 跳 信息 ， 如 图 6-59 所 示 。 
。 MP_UNREACH_NLRI: Multiprotocol Unreachable NLRI (多 协议 不 可 达 NLRI)， 
用 于 撤销 不 可 达 的 路 由 信息 。 

如 图 6-59 所 示 , 如 果 通 过 BGP 承载 IPv6 路 由 信息 , 在 Upate 报 文中 , MP_REACH_ 

NLRI 属性 (属性 代码 14〉 用 来 标识 该 路 由 的 前 级 、 下 一 跳 信 息 。address family (AF1) 
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值 为 2， 表 示 BGP 承载 的 协议 为 IPv6，Subsequent address family identifier (SAFI) 值 为 
1, 表示 为 单 播 路 由 。Next hop network address 代表 下 一 跳 信息 为 fe80::2。 在 Network layer 
reachablility information 中 ，2000:10:1:1::/64 代表 携带 的 路 由 前 级 及 前 级 长 度 。 


Ws Border Gateway Protocol 
吕 UPDATE Message 
Marker: 16 bytes 
Length: 70 bytes 
Type: UPDATE Message (2) 
Unfeasible routes length: 0 bytes 
Total path attribute length: 47 bytes 
各 Path attributes 
司 ORIGIN: IGP (4 bytes) 
轩 AS_PATH: 12 (9 bytes) 
MP_REACH_NLRI (34 bytes) 
Flags: 0x90 (Optional, Non-transitive, Complete, Extended Length) 
Type code: MP_REACH_ NLRI (14) 
Length: 30 bytes 
Address family: IPv6 (2) 
Subsequent address family identifier: Unicast (1) 
B Next hop network address (16 bytes) 
Next hop: fe80::2 (16) 
Subnetwork points of attachment: 0 
B Network layer reachability information (9 bytes) 
台 2000:10:1:1::/64 
MP Reach NLRI prefix length: 64 
MP Reach NLRI prefix: 2000:10:1:1:: 


图 6-59 MP REACH_NLRI 属性 


如 图 6-60 所 示 , 如 果 BGP 需要 撤销 IPv6 路 由 , 通过 Update 报 文中 的 MP_UNREACH_ 
NLRI 属性 (属性 代码 15) 来 标识 需要 撤销 的 路 由 前 级 ; withdrawn routes 中 ,2000:10:1:4: : 
/64、2000:10:1:5: : /64 代表 被 撤销 的 路 由 。 


所 Border Gateway Protocol 
B UPDATE Message 
Marker: 16 bytes 
Length: 48 bytes 
Type: UPDATE Message (2) 
Unfeasible routes length: 0 bytes 
Total path _ attribute length: 25 bytes 
a Path _ attributes 
问 MP_UNREACH_NLRI 《25 bytes) 
BFlags: Ox90 (Optional, Non-transitive, Complete, Extended Length) 
Type code: MP_UNREACH_NLRI (15) 
Length: 21 bytes 
Address family: IPv6 (2) 
Subsequent address family identifier: Unicast (1) 
BWithdrawn routes (18 bytes) 
B2000:10:1:4::/64 
而 2000:10:1:5::/64 


图 6-60 MP UNREACH NLRI 属性 


案例 研究 ; 配置 MP-BGP 

场景 描述 : 如 图 6-61 所 示 ，AS 12 中 Rl 与 R2、AS 34 中 R3 与 R4 均 部 署 IPv6 网 
络 ， 地 址 如 图 所 示 ，AS 内 使 用 全 局 单 播 地 址 建立 iBGP 邻居 ，AS 之 间 使 用 链 路 本 地 地 
址 建立 eBGP 邻居 。 

问题 描述 : 当 R4 通告 了 一 条 路 由 2000:10:1:34::/64 到 BGP，R3 传递 给 eBGP 邻居 
到 R2，R2 传递 给 iBGP 邻居 R1。 试 问 在 R2 未 修改 Next_Hop 的 情况 下 ，R1 的 BGP 路 
由 表 中 显示 该 路 由 是 否 为 最 优 ? 下 一 跳 是 多 少 ? 
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link-local GO/0/1 





图 6-61 配置 MP-BGP 


配置 示例 : R1 的 配置 。 
<R1>display current-configuration 
interface GigabitEthernet0/0/0 
ipv6 enable 
ipv6 address 2000:10:1:12::1/64 
# 
bgp 12 
router-id 1.1.1.1 
peer 2000:10:1:12::2 as-number 12 
# 
ipv4-family unicast 
undo synchronization 
# 
ipv6-family unicast 
undo synchronization 
peer 2000:10:1:12::2 enable 
<R2>display current-configuration 
interface GigabitEthernet0/0/0 
ipv6 enable 
ipv6 address 2000:10:1:12::2/64 
# 
interface GigabitEthernet0/0/1 
ipv6 enable 
ipv6 address 2000:10:1:23::2/64 
ipv6 address FE80::2 link-local 
# 
bgp 12 
router-id 2.2.2.2 
peer 2000:10:1:12::1 as-number 12 
peer FE80::3 as-number 34 
peer FE80::3 connect-interface GigabitEthernet0/0/1 
关 
ipv6-family unicast 
undo synchronization 
peer 2000:10:1:12::1 enable 
peer FE80::3 enable 
<R3>display current-configuration 
interface GigabitEthernet0/0/0 
ipv6 enable 
ipv6 address 2000:;10:1:34::3/64 
六 
interface GigabitEthernet0/0/1 
ipv6 enable 
ipv6 address 2000:10:1:23::3/64 
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ipv6 address FE80::3 link-local 
# 
bgp 34 
Iouter-id 3.3.3.3 
peer 2000:10:1:34::4 as-number 34 
peer FE80::2 as-number 12 
peer FE80::2 connect-interface GigabitEthernet0/0/1 
# 
ipvy6-family unicast 
undo synchronization 
peer 2000:10:1:34::4 enable 
peer FE80::2 enable 


说 明 : 
R2 与 R3 之 间 使 用 link-local 地 址 建立 eBGP 邻居 关系 ,在 R2 上 并 没有 配置 Next_Hop-local 
命令 。 


R1 和 R2 的 BGP IPv6 邻居 关系 : 
<R1>display bgp ipv6 peer 
# 显 示 BGP ipv6 的 邻居 表 
BGP Local router ID ; 1.1.1.1 
Local AS number : 12 


Total number of peers : 1 Peers in established state : 1 
Peer V AS MsgRcvd MsgSent OutQ Up/Down -State PrefRey 
2000:10:1:12::24 12 16 13 0 00:11:30 Established 1 


<R2>display bgp ipv6 peer 
BG?P Local router ID : 2.2.2.2 
Local AS number : 12 


Total number of peers : 2 Peers in established state : 2 
Peer hh AS MsgRcvd MsgSent OutQ Up/Down State PrefRey 
2000:10:1:12::1 4 12 16 20 0 00:14:42 Established 0 
FE80::3 4 34 36 32 0 00:29:43 Established 1 
说 明 : 


通过 命令 display bgp ipv6 peer 能 查看 到 BGP 的 ipv6 邻居 关系 。 如 果 不 携带 IPv6 则 查看 
默认 的 IPv4 邻居 。 


R1 和 R2 的 BGP IPv6 路 由 表 : 
<R1>display bgp ipv6 routing-table 
# 显 示 BGP ipv6 路 由 表 
BGP Local router ID is 1.1.1.1 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 2 


*>i Network :2000:10:1:4:: PrefixLen : 64 
NextHop :2000:10:1:12::2 LocPrf :100 
MED S PrefVal :0 
Label 
Path/Ogn:34 i 


<R2>display bgp ipv6 routing-table 
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BGP Local router ID is 2.2.2.2 
Status codes: *-valid, >-besb d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total Number of Routes: 2 


*> Network :2000:10:1:4:: PrefixLen : 64 
NextHop :FE80::3 LocPrf 
MED . PrefVal :0 
Label $ 
Path/Ogn :34 i 

说 明 : 


在 R2 的 路 由 表 中 看 到 2000:10:1:4:: 网 段 下 一 跳 为 R3 的 link-local 地 址 FE80::3， 而 R1 
从 R2 为 iBGP 邻居 ， 上 默认 情 况 下 iBGP 邻居 是 不 会 修改 下 一 跳 的 。 但 是 R1 从 R2 收 到 的 路 
由 下 一 跳 自动 更 改 为 R2 的 全 局 单 播 地 址 2000:10:1:12::2， 在 路 由 表 中 也 是 最 优 的 ， 因 此 
利用 link-local 地 址 建立 邻居 可 以 无 需 配 置 Next_Hop-local 命令 , 自动 解决 了 下 一 跳 的 问题 。 


总 涛 : 
如 果 R2 与 R3 之 间 的 地 址 为 全 局 单 播 地 址 ， 那 么 R1 的 路 由 表 中 收 到 的 路 由 下 一 跳 仍 
然 会 自动 修改 吗 ? 


6.6 思考 题 


1. BGP 的 Update 消息 在 哪个 阶段 发 送 ? Update 的 路 由 和 IGP 协议 的 Update 有 什 
么 区 别 ? 
2. 造成 BGP 邻居 状态 处 于 Active 有 哪些 因素 会 造成 ? 
3. 为 什么 要 在 eBGP 邻居 设置 BGP 的 多 跳 ，iBGP 邻居 是 否 需要 ? 
. 为 什么 从 iBGP 对 等 体 收 到 的 路 由 不 会 传递 给 iBGP 邻居 ， 环 路 是 如 何 产生 的 ? 
.BGP 的 可 选 参数 有 哪些 作用 ? 
. Local Pref 属性 和 MED 属性 有 哪些 区 别 ? 
.路 径 属 性 为 什么 要 分 类 ? 
.BGP 防 环 措施 有 哪些 ，BGP 一 定 不 会 出 现 环 路 吗 ? 
， 对 于 连接 到 多 个 提供 商 的 客户 ， 如 何 解决 穿越 客户 的 流量 ? 
10. Local_Pref 属性 会 不 会 在 联盟 内 的 子 AS 之 间 传 递 ， 为 什么 ? 


Ne Se 二 
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第 七 章 
Multicast 


本 章 介 绍 了 各 种 组 播 技术 ， 包 括 PIM、IGMP、MSDP、MBGP， 其 中 ，PIM 组 播 路 由 
协议 分 为 密集 模式 和 稀疏 模式 ， 本 章 对 这 两 种 模式 的 工作 机 人 制 做 了 深入 分 析 。 同 时 对 于 
主机 和 路 由 器 之 间 的 IGMP 协议 及 交换 机 上 的 IGMP Snooping 机 制 、 单 域 组 播 环境 下 的 
Anycast RP 和 多 域 组 播 环境 下 的 MSDP 和 MBGP 技术 ， 本 章 也 都 结合 实例 加 以 阐述 。 


本 章 包含 以 下 内 容 : 


© IGMPv1、v2 及 v3 版 本 的 工作 机 制 
@ IGMP Snooping 工作 机 制 

@ PIM 的 DM 模式 下 组 播 树 建立 机 制 
@ PIM 的 SM 模式 下 组 播 树 建立 机 制 

© MSDP 和 MBGP 协议 原理 
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7.1 组 播 基础 


7.1.1 组 播 应 用 


当前 随 着 互联 网 应 用 的 大 量 出 现 ， 一 些 在 线 的 网 络 应 用 开始 使 用 组 播 机 制 来 完成 数 
据 的 传输 ， 如 在 线 多 人 互动 游戏 、 交 互 的 多 方 视频 会 议 ， 还 有 一 些 应 用 如 在 线 广 播 电 视 
节目 、 音 视频 流 媒体 应 用 及 视频 网 站 内 容 发 布 、 金 融 股票 信息 发 布 等 ， 这 些 应 用 也 都 可 
使 用 组 播 机 制 来 完成 ， 但 区 别 是 前 者 由 多 个 组 播 源 同 时 发 出 组 播 数 据 ， 而 后 者 是 整个 过 
程 仅 有 一 个 组 播 源 发 出 组 播 数据 。 类 似 的 应 用 还 有 公司 给 所 有 员工 发 送 即 时 消息 、 批 发 
商 向 零售 商 发 放 商 品 信息 等 。 前 者 使 用 “Many-to-Many” 的 组 播 传输 机 制 ， 而 后 者 使 用 
的 是 “One-To-Many” 的 组 播 机 制 。 目 前 ， 一 到 多 的 组 播 机 制 较 多 到 多 的 组 播 机 制 简单 、 
成 熟 ， 出 现 早 且 广泛 部 署 。 

组 播 传输 作为 卫 数据 传输 的 三 种 方式 之 一 , 是 指 接收 者 的 数量 和 位 置 在 源 端 主机 不 
知道 的 情况 下 , 仅 由 源 发 出 一 份 组 播报 文 , 向 目标 组 播 卫 地 址 发 送 数据 的 过 程 。 效 率 高 、 
带宽 消耗 低 是 其 优点 ， 但 全 网 设备 需要 支持 组 播 传输 。 

单 播 通 信 , 信息 源 为 每 个 需要 信息 的 主机 都 发 送 一 份 独立 的 报 文 , 目标 他 地 址 是 接 
收 者 自己 的 地 址 。 带 宽 要 求 高 是 单 播 通信 的 不 足 ， 以 一 个 1.5Mbit/s 的 视频 应 用 为 例 ， 如 
果 使 用 单 播 传输 ”每 个 接收 者 都 能 收看 视频 ， 则 至 少 需要 Nx1.5Mbit/s 的 带宽 才能 保证 
正常 的 视频 质量 ， 带 宽 的 要 求 随 接收 者 的 数量 增加 而 增加 ， 易 出 现 网 络 瓶颈 。 

广播 通信 是 指 在 IP 网 段 内 广播 数据 报 文 ， 由 一 个 信息 源 产生 一 份 报 文 , 其 目标 地 址 
是 全 网 或 子 网 广播 地 址 ， 目 标 网 段 内 每 个 主机 都 将 收 到 这 份 数据 报 文 。 它 较 适合 一 到 多 
的 应 用 ， 但 不 适合 接收 者 分 布 在 任意 位 置 的 应 用 中 。 

组 播 的 这 种 应 用 相 较 于 传统 的 单 播 和 广播 ， 可 以 更 有 效 地 节约 网 络 带宽 、 降 低 网 络 
负载 ， 所 以 被 广泛 应 用 于 IPTV、 实 时 数据 传送 和 多 媒体 会 议 等 网 络 业务 中 。 

本 章 主 要 介绍 “一 到 多 ”的 组 播 传输 机 制 。 


7.1.2 组 播 工作 原理 


组 播 源 仅 向 组 播 目 标 地 址 发 送 组 播报 文 ， 该 目标 地 址 对 应 着 一 组 分 布 在 各 个 位 置 的 
组 播 接 收 者 。 在 组 播 源 和 组 播 接收 者 中 间 是 由 组 播 路 由 器 构成 的 组 播 网 络 。 组 播 路 由 器 
收 到 组 播 源 产生 的 组 播报 文 ， 根 据 路 由 器 中 的 组 播 转发 表 把 组 播报 文 转发 到 接收 者 所 在 
的 网 段 。 

组 播 转发 表 是 由 组 播 路 由 协议 创建 和 维护 的 。 

图 7-1 中 ， 源 $ 的 组 播报 文 沿 R1-R2-R3 至 PC2， 沿 R1-R2 至 PC1。 

7.1.2.1 组 播 源 

产生 组 播报 文 的 源 端 设备 ， 在 活路 期间， 组 播 源 的 所 有 接口 均 泛 洪 组 播 数据 。 组 播 
报 文 的 目标 瑟 地 址 为 D 类 地 址 ， 源 人 P 为 报 文 流出 的 接口 地 址 。 一 个 组 播 源 可 以 同时 向 
多 个 组 播 组 发 送 数据 ， 多 个 组 播 源 也 可 以 同时 向 一 个 组 播 组 发 送 报 文 。 组 播 源 不 需要 运 
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行 任何 组 播 协 议 ， 任 何 时 刻 都 可 以 直接 推送 组 播 数据 。 


| 组 播 路 由 协议 PIM 


Server 


RI 
> 
民 


IGMP 





El PC2 
图 7-1 组 播 网 络 

7.1.2.2 组 播 组 

在 IPv4 中 ， 每 一 个 D 类 组 地 址 就 是 一 个 组 播 组 ， 所 有 接收 者 加 入 该 组 播 组 ， 识 别 
发 给 该 组 播 地 址 的 组 播报 文 ， 组 播 路 由 器 接收 并 转发 组 播报 文 。 

7.1.2.3 ”组 播 路 由 器 

运行 组 播 路 由 协议 ， 创 建 、 维 护 组 播 表 并 转发 组 播 数据 的 路 由 器 称 为 组 播 路 由 器 ， 
依据 在 组 播 转发 中 所 处 的 位 置 不 同 ， 连 接 组 播 源 的 组 播 路 由 器 称 为 头 一 跳 路 由 器 
(first-hop router)， 而 连接 组 播 接 收 者 的 路 由 器 则 称 为 最 后 一 跳 路 由 器 〈last-hop router)， 
其 他 路 由 器 为 中 间 路 由 器 。 组 播 数据 会 溯 树 而 下 ， 头 一 跳 路 由 器 经 中 间 路 由 器 转发 数据 
给 最 后 一 跳 路 由 器 ， 由 其 转发 给 接收 者 。 图 7-1 中 ，R1、R2、R3 是 组 播 路 由 器 。 

7.1.2.4 组 播 路 由 协议 

组 播 路 由 协议 是 一 种 运行 在 组 播 路 由 器 之 间 、 用 于 发 现 和 维护 组 播 路 由 信息 并 确定 
组 播 数据 流转 发 路 径 的 一 种 网 络 协议 ， 其 作用 就 如 OSPF、BGP 在 网 络 设备 中 的 作用 相 
似 , 不 同 之 处 在 于 该 协议 确定 的 转发 路 径 用 于 转发 目标 地 址 是 D 类 的 组 播 数据 ， 常 用 的 
组 播 路 由 协议 有 IGMP、PIM、DVMRP、MOSPF、CBT、MSDP、MVPN 等 。 其 中 , PIM 
协议 又 有 许多 的 种 类 , 如 PIM-DM、 PIM-SM, PIM-SSM、Bidirectional PIM, PIM for IPv6。 

PIM 是 目前 所 有 三 商都 支持 的 一 类 组 播 路 由 协议 。 

图 7-1 中 ， 在 最 后 一 跳 网 段 ， 接 收 者 和 组 播 路 由 器 间 使 用 IGMP 组 播 协议 。 而 在 中 
间 组 播 路 由 器 间 则 运行 组 播 路 由 协议 ， 如 PIM 路 由 协议 ， 由 其 创建 组 播 转 发 表 。 

MOSPF 和 DVMRP 两 类 组 播 路 由 协议 类 似 OSPF 和 RIP 的 关系 ， 一 个 使 用 链 路 状 
态 协议 ， 一 个 使 用 D-V 矢量 协议 构建 基于 源 的 组 播 最 短路 径 树 ， 该 组 播 树 使 用 MOSPF 
和 DVMRP 各 自 单独 维护 的 组 播 数 据 库 去 执行 RPF 检查 ， 生 成 组 播 转 发 表 。 

而 CBT 则 是 另 一 类 组 播 路 由 协议 , 它 有 别 于 前 两 项 技术 的 关键 是 不 再 基于 源 在 网 络 
中 构建 最 短路 径 树 ， 而 是 先 定义 一 个 核心 节点 。 组 播 源 的 组 播报 文 先 流 给 这 个 核心 节点 ， 
由 其 负责 转发 给 接收 者 。CBT 是 双向 树 ， 所 以 不 能 使 用 PRF 检查 。 

PIM 协议 不 维护 用 于 RPF 检 查 的 路 由 表 , 仅 维护 接收 者 和 组 播 源 的 状态 相关 的 信息 ， 
执行 RPF 检查 要 参考 单 播 路 由 协议 或 其 他 组 播 专用 路 由 信息 库 ， 因 此 ， 由 于 不 用 维护 单 
独 的 路 由 信息 库 而 降低 了 协议 复杂 性 ， 同 时 也 减 小 了 设备 开销 。PIM 协议 参考 了 上 面 的 
组 播 路 由 协议 的 技术 和 工作 模型 ， 而 将 组 播 应 用 分 为 密 模 型 (Dense Mode) 和 政 模型 


i 398 


| 第 七 章 Multicast | 


(Sparse Mode) 两 种 方式 ， 密 模型 对 应 MOSPF 和 DVMRP， 而 疏 模型 对 应 CBT, 但 PIM 
相 比 于 其 他 组 播 路 由 协议 要 更 简单 和 高 效 。 

7.1.2.5 组 播 表 

完成 组 播 数 据 的 传输 ， 要 借助 在 不 同位 置 的 组 播 路 由 器 的 组 播 表 项 ， 组 播 路 由 器 上 
会 有 各 种 组 播 相 关 的 表 ， 如 组 播 路 由 表 、 组 播 转 发 表 、IGMP 路 由 表 、PIM 路 由 表 等 。 

1. 组 播 协议 路 由 表 一 一 display pim routing-table 

组 播 协议 路 由 表 是 运行 各 种 组 播 路 由 协议 时 由 各 个 协议 自己 维护 的 路 由 表 项 ， 如 果 
组 播 路 由 协议 为 PIM 协议 ， 它 会 自身 维护 PIM 协议 路 由 表 。 本 章 中 ， 我 们 观察 组 播 转 
发 都 使 用 PIM 协议 路 由 表 ， 使 用 命令 display pim routing-table。 

<Huawei>display pim routing-table 


VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 





(10.1.1.1. 229.1,2.3) 
RP: 101.3.3 
Protocol: pim-sm, Flag: SPT LOC ACT 
UpTime: 02:54:43 
Upstream interface: GigabitEthernet1/0/0 
Upstream neighbor: NULL | 
RPF prime neighbor: NULL 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet2/0/0 
Protocol: pim-sm, UpTime: 02:54:43, Expires: 00:02:47 


所 有 协议 的 路 由 表 都 相似 ， 记 录 表 项 的 〈$,G) 条 目 及 生存 时 间 ， 还 有 上 游 接 口 和 
下 游 接口 列表 。 

2，IGMP 路 由 表 

接收 者 所 在 网 段 上 ， 若 路 由 器 接口 只 开启 IGMP， 并 没有 开启 PIM 协议 时 ， 则 组 播 
数据 依然 可 以 转发 到 本 网 段 ， 只 要 路 由 器 接口 下 有 组 播 接收 者 ,数据 转 发 可 以 转发 到 PIM 
协议 没有 开启 的 但 有 IGMP 接收 者 的 接口 ， 这 可 以 通过 观察 display igmp routing-table 看 
到 转发 数据 的 出 口 。 

<Huawei> display igmp routing-table 


Routing table of VPN- Instanee public net 
Total 2 entries 


00001. (10.10.10.10, 232.1.1.3) 
List of 1 downstream interface in include mode 
GigabitEthemet2/0/1 (20.20.20.1), 
Protocol: SSM-MAP 


00002. (*, 229.1.2.3) 
List of 1 downstream interface 
GigabitEthernet2/0/1 (20.20.20.1), 
Protocol: IGMP 


说 明 : 
表 项 00001 是 接口 收 到 IGMP 源 /组 的 加 入 报告 而 出 现 的 条 目 。 表 项 00002 是 收 到 IGMP 
组 229.1.2.3 的 组 播 条 目 。 
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3. 组 播 路 由 表 一 一 display mnulticast routing-table 
组 播 路 由 表 是 全 局 唯一 的 用 于 转发 组 播 数 据 的 路 由 表 。 它 的 内 容 来 自 于 多 种 组 播 路 
由 协议 ， 每 种 组 播 路 由 协议 都 有 相应 各 自 的 组 播 路 由 协议 表 项 ， 这 些 表 项 内 容 除 出 现在 
协议 的 路 由 表 中 外 ， 还 会 汇集 到 组 播 路 由 表 ， 组 播 路 由 表 是 由 各 个 协议 优选 出 的 路 由 构 
建 而 成 的 。 这 就 像 单 播 路 由 中 路 由 器 同时 运行 OSPF、RIP、BGP 多 种 路 由 协议 ， 但 其 最 
佳 路 由 都 出 现在 IP 路 由 表 中 ,使 用 display multicast routing-table 可 以 看 到 PIM 路 由 表 
和 IGMP 路 由 表 中 的 内 容 。 
<Huawei>display multicast routing-table 
Maulticast routing table of VPN-Instance: public net 
Total 1 entry 
00001. (10.1.1.1, 229.1.2.3) 
Uptime: 00:00:28 
Upstream Interface: GigabitEthernetl/0/0 
List of 2 downstream interfaces 
1: ”GigabitEthernet2/0/0”#pim 引 入 的 下 游 接口 
2: ”GigabitEthernet2/0/1 ”##igmp 引入 的 下 游 接口 


说 明 : 
上 游 接口 ， 又 叫 RPF 接口 ， 是 组 播 数据 报 文 流入 的 接口 。 
下 游 接口 列表 ， 包 含 2 个 下 游 接 口 ， 是 组 播报 文 流出 的 接口 。 


4. 组 播 转发 表 一 一 display multicast forwarding-table 

设备 会 根据 组 播 路 由 和 转发 策略 ， 从 组 播 路 由 表 选 取 最 优 的 组 播 路 由 ， 下 发 到 组 播 
转发 表 中 ， 直 接 用 于 指导 组 播 数 据 转发 ， 其 处 于 数据 平面 上 ， 作 用 相当 于 单 播 路 由 中 的 
FIB 表 。 如 下 display multicast forwarding-table 命令 ， 可 用 于 检查 组 播 转 发 表 项 有 没有 成 
功 建立 ， 组 播 数 据 能 否 正常 传输 。 

<Huawei> display multicast forwarding-table 

Multicast Forwarding Table of VPN-Instance: public net 

Total 1 entry, 1 matched 





00001. (10.10.10.2, 225.0.0.1) 
MID: 0, Flags: ACT 
Uptime: 00:08:32, Timeout in: 00:03:26 
Incoming interface: GigabitEthernet1/0/0 
List of 1 outgoing interfaces: 
1l: GigabitEthernet2/0/0 
Activetime: 00:23:15 
Matched 38264 packets(1071392 bytes), Wrong If 0 packets 
Forwarded 38264 packets(1071392 bytes) 
7.1.2.6 ”组 播 接收 者 


通告 IGMP 报告 报 文 的 PC， 同 时 也 是 接收 组 播 数据 的 PC。 

组 播 接收 者 所 在 网 段 上 的 路 由 器 靠 “ 听 ”组 播 接收 者 发 来 的 组 播报 告 ， 并 在 路 由 器 
的 接口 下 记录 该 网 段 有 相应 组 播 组 的 成 员 。 但 路 由 器 并 不 关心 到 底 该 网 段 有 哪些 接收 者 ， 
它 只 记录 是 否 有 组 成 员 ， 最 终 路 由 器 根据 收 到 的 IGMP 报告 中 的 要 求 ， 转 发 来 自任 意 或 
特定 源 /组 的 数据 。 图 7-1 中 ，PC1 和 PC2 是 组 播 组 229.1.2.3 的 接收 者 。 
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7.1.3 ”组 播 模型 


根据 IGMP 接收 者 对 组 播 源 的 控制 程度 的 不 同 ， 可 把 I 了 P 组 播 分 为 三 种 模型 。 

ASM 

Any-Source Multicast， 任 意 源 组 播 。 在 ASM 模型 中 ， 任 意 发 送 者 都 可 以 成 为 组 播 
源 ， 并 向 某 组 播 组 地 址 发 送 数 据 。 接 收 者 通过 加 入 由 该 地 址 标识 的 组 播 组 ， 接 收 到 发 往 
该 组 播 组 的 所 有 信息 。 

在 ASM 模型 中 ， 接 收 者 无 法 预先 知道 组 播 源 的 位 置 ， 接 收 者 当然 也 就 可 以 接收 任 
意 源流 出 的 组 播 流 。 所 以 组 播 接收 者 和 组 播 源 二 者 可 以 独立 不 相关 地 工作 。 接 收 者 在 任 
意 时 间 加 入 或 离开 该 主机 组 ， 而 和 组 播 源 无 关 。 

PIM DM/SM 是 典型 的 域内 组 播 路 由 协议 ， 二 者 都 支持 ASM 模式 。 在 域 间 ， 需 要 借 
助 MSDP 实现 跨 域 组 源 共享 。 

SSM 

Source-Specific Multicast, 特定 源 组 播 。 在 实际 中 ,组 播 接 收 者 可 能 仅 对 某 些 源 发 送 
的 组 播 信息 感 兴趣 ， 而 不 愿 接收 其 他 源 发 送 的 组 播 信息 。SSM 模型 为 用 户 提供 了 一 种 能 
够 在 客户 端 指定 接收 组 播 源 的 服务 类 型 。 只 有 从 希望 的 组 播 源流 出 的 组 播 数据 会 溯 树 而 
下 并 留 给 申请 该 源 的 组 播 接 收 者 。 

SSM 模型 和 ASM 模型 的 根本 区 别 是 接收 者 已 经 通过 其 他 手段 预先 知道 了 组 播 源 的 
具体 位 置 。SSM 使 用 和 ASM 不 同 的 组 播 地 址 范围 ， 直 接 在 接收 者 和 其 指定 的 组 播 源 之 
间 建 立 专用 的 组 播 转发 路 径 。 

SSM 比 ASM 有 更 大 的 使 用 空间 ， 它 没有 域内 和 域 间 的 界定 ， 只 要 接收 者 预先 知道 
组 播 源 的 具体 位 置 ， 可 直接 创建 组 播 传输 路 径 。 

SFM 

Source-Filtered Multicast， 过 滤 源 的 组 播 。SFM 模型 继承 了 ASM 模型 ， 从 组 播发 送 
者 角度 来 看 ， 组 播 组 成 员 关 系 二 者 完全 相同 。SFM 在 功能 上 对 ASM 进行 了 扩展 ， 组 播 
节点 对 接收 到 的 组 播报 文 的 源 地 址 进行 检查 ， 人 允许 或 禁止 来 自 茶 些 组 播 源 的 报 文通 过 。 
最 终 ， 接 收 者 只 能 接收 到 来 自 部 分 组 播 源 的 数据 。 从 接收 者 的 角度 来 看 ， 只 有 部 分 组 播 
源 是 有 效 的 ， 组 播 源 经 过 了 筛选 。SFM 仅 在 ASM 的 基础 上 添加 了 组 播 源 过 滤 策 略 ， 此 
外 ， 基 本 原理 和 配置 方法 相同 。 此 处 将 SFM 与 ASM 统称 为 ASM。 


7.1.4 组 播 地 址 


7.1.4.1 IPv4 组 播 地 址 

单 播 地 址 代表 单一 的 个 体 ， 可 作为 源 和 目标 IP 地 址 ， 而 组 播 地 址 仅 作 为 目标 全 地 
址 ， 代 表 一 组 接收 者 ， 该 组 的 接收 者 的 所 在 位 置 分 布 在 各 处 ， 而 且 组 的 成 员 关 系 是 动态 
的 ， 主 机 可 以 在 任何 时 刻 加 入 和 离开 组 播 组 而 无 需 通 知 源 。 任 何 路 由 器 都 识别 并 转发 使 
用 该 组 地 址 的 报 文 流量 。 每 个 组 播 地 址 一 般 可 代表 一 个 组 播 应 用 。 

IANA (Internet Assigned Numbers Authority) 指定 D 类 地 址 用 于 组 播 应 用 ，224.0.0.0 一 
239.255.255.255 范围 地 址 作为 组 播 地 址 。D 类 地 址 范围 是 个 扁平 的 地 址 空间 , 无 需 掩 码 ， 
组 播 地 址 前 4 位 为 1110， 后 面 28 位 为 任意 的 一 类 地 址 范围 。 


401 Wn 


| HCIE 路 由 交换 学 习 指南 | 


组 地 址 的 使 用 见 表 7-1 所 示 。 





表 7-1 IANA 定义 的 组 播 地 址 范围 及 含义 
永久 组 播 地 址 ，Link-Local 组 播 地 址 ， 该 地 址 仅 工作 在 一 
224.0.0.0 一 224.0.0.255 个 卫 路 由 网 段 ， 该 类 组 播 地址 不 会 被 路 由 器 转发 ， 不 论 
TTL 是 多 少 ， 路 由 协议 使 用 该 组 地 址 
A 永久 组 播 地 址 ，IANA 分 配 该 地 址 给 网 络 协议 ， 路 由 器 能 
224.0.1.0 一 224.0.1.255 转发 使 用 该 组 播 地 址 的 报 文 
232.0.0.0~232.255.255.255 专用 于 SSM 使 用 的 组 播 地址 
239.0.0.0~239.255.255.255 re he ed te eb 


址 ， 使 用 该 范围 内 地 址 无 需 向 IANA 申请 
224.0.0.0 一 239.255.255.255 中 其 他 地 址 | 用 户 可 以 申请 使 用 的 组 播 应 用 地 址 


@ 永久 组 地 址 :|IANA 为 路 由 协议 预 留 的 组 播 地 址 (也 称 为 保留 组 地 址 )， 用 于 标识 
一 组 特定 的 网 络 设备 。 永 久 组 地 址 保持 不 变 ， 组 成 员 的 数量 可 以 是 任意 的 ， 甚 
至 可 以 为 零 。 大 部 分 组 播 地 址 都 是 永久 组 播 地 址 。 

。 临时 组 地 址 ， 为 用 户 组 播 组 临时 分 配 的 IPv4 地 址 (也 称 为 普通 组 地 址 ) ， 组 成 员 
的 数量 一 旦 为 零 ， 即 取消 。 

@ 224.0.0.0 组 播 地 址 保留 。 


7.1.4.2 以太 网 组 播 MAC 地 址 

组 播 数据 在 LAN 上 使 用 组 播 MAC 地 址 转发 数据 给 接收 者 , 这 需要 组 播 的 接收 者 网 
卡 能 识别 该 组 播 MAC 地 址 ， 否 则 无 法 接收 该 组 播 数据 。 

每 个 加 入 组 播 组 的 PC 的 协议 栈 都 会 根据 组 播 组 而 为 网 卡 添加 一 个 网 卡 可 识别 的 组 
播 MAC 地 址 。 如 果 有 多 个 接收 者 ， 则 所 有 组 播 组 的 接收 者 成 员 都 要 使 网 卡 识 别 该 组 播 
MAC 地 址 ， 这 个 组 播 MAC 地 址 是 网 卡 根据 特定 方式 计算 出 来 的 地 址 。 但 接收 者 不 再 需 
要 组 播 数据 之 后 ， 网 卡 不 会 再 识别 该 MAC 地 址 。 其 计算 方法 如 下 : 

IANA 规定 ， 组 播 MAC 地 址 的 高 25bit 为 0x01005e， 第 25bit 为 0， 低 23bit 为 IPv4 
组 播 他 地址 的 低 23bit。 组 播 MAC 是 根据 组 播 IPv4 地 址 生成 的 ， 但 并 非 一 个 组 播 IPv4 
地 址 就 对 应 一 个 组 播 MAC， 如 图 7-2 所 示 ， 可 以 32 个 组 地 址 共用 一 个 组 播 MAC 地 址 。 









Sbits information loss 


so. 23bits | … 
mapping 
48-bit MAC address 


25bits MAC address prefix 


图 7-2 组 播 MAC 与 组 播 耳 地 址 的 映射 


32-bit JP address 
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例 : 如 果 一 台 主 机 要 接收 组 播 组 229.1.2.3， 硬 件 接口 卡 会 识别 MAC 地 址 0x0100 
5e010203， 即 目标 地 址 是 0x01005e010203 的 组 播 MAC 帧 会 被 接收 ， 但 该 组 播 MAC 地 
址 同样 也 是 组 播 组 228.1.2.3、229.129.2.3 等 组 所 使 用 的 组 播 MAC， 所 以 如 果 使 用 同样 
组 播 MAC 地 址 的 多 个 组 播 组 工作 在 同一 个 LAN, 则 主机 会 频繁 收 到 其 他 组 的 组 播 数据 ， 
接口 卡 只 能 在 IP 层 分 辨 出 接收 到 的 组 播 数 据 是 否 为 接收 者 加 入 的 组 ， 这 样 会 影响 CPU 
性 能 。 

根据 组 播 MAC 的 生成 方式 ， 我 们 知道 ， 相 同 的 组 播 MAC 的 组 播 帧 中 所 包含 的 组 
播 卫 地 址 可 以 不 一 样 。 由 于 这 种 原因 ， 也 建议 网 络 管理 员 在 设计 组 播 应 用 时 ， 应 尽量 避 
免 在 同一 个 IP 网 段 让 使 用 相同 组 播 MAC 的 多 个 组 播 地 址 同时 出 现 ， 以 减少 接收 者 主机 
的 处 理 负荷 。 


7.1.5 组 播 转 发 过 程 


组 播 转发 区 别 于 单 播 转发 , 单 播 转发 是 基于 报 文 目标 IP 地 址 查 表 转发 的 过 程 ， 而 组 
播 转发 是 根据 报 文 源 IP 地 址 查 表 转发 的 过 程 ， 过 程 如 图 7-3 所 示 ， 报 文 沿 远离 源 的 方向 
转发 ， 可 避免 报 文 被 发 回 给 源 而 引起 的 环 路 。PIM 协议 使 用 RPF 机 制 确定 转发 路 径 。 


组 播报 文 到 达 ， 查 找 转发 表 


转发 表 中 是 否 是 
有 该 转发 表 项 


否 


将 报 文 缓存 ， 标 志 NoCache， 
执行 RPF 检查 


是 RPF 检查 通过 下 


创建 路 由 表 项 ， 刷 新 转发 表 。 
将 报 文 从 下 游 接口 转发 丢弃 报 文 


到 达 接口 是 否 和 表 项 上 游 
接口 相同 


依照 转发 表 项 ， 将 
报 文 从 下 游 接口 转发 标志 Wronglf， 执 行 RPF 检查 


入 RPF 检查 通过 否 
修改 路 由 表 项 上 游 接口 为 RPF 接口 ， 
刷新 转发 表 。 将 报 文 从 下 游 接口 转发 丢弃 报 文 


图 7-3 组 播报 文 转发 过 程 
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7.1.5.1 RPF 检查 
PIM 路 由 器 使 用 RPF 创建 并 维护 组 播 路 由 表 项 ,这 区 别 于 其 他 组 播 路 由 协议 , 执行 
RPF (Reverse Path Forwarding) 检查 就 是 对 收 到 的 组 播 数 据 报 文 的 源 PP 进行 检查 ， 判 定 
其 是 否 从 正确 的 入 接口 接收 到 组 播 数 据 的 过 程 , 某 些 RPF 检查 过 程 还 要 判定 报 文 是 否 源 
自 RPF 邻居 。 在 控制 平面 上 ， 可 以 靠 RPF 检查 计算 上 游 接 口 生成 (S,G) 或 (*,G) 组 
播 转发 表 。 在 数据 平面 上 ， 接 口 收 到 的 数据 报 文 会 按 下 列 方式 执行 RPF 检查 。 
7.1.5.2 数据 执行 RPF 检查 的 过 程 
除 单 播 路 由 外 ，MBGP 路 由 、 组 播 静 态 路 由 也 是 RPF 检查 的 依据 。 当 路 由 器 收 到 一 
份 组 播报 文 后 ， 如 果 这 三 种 路 由 表 都 存在 ， 具 体检 查 过 程 如 下 。 

首先 ， 通 过 报 文 源 地 址 ， 分 别 从 单 播 路 由 表 、MBGP 路 由 表 和 组 播 静 态 路 由 表 中 各 
选 出 一 条 最 优 路 由 。 单 播 路 由 、MBGP 路 由 的 出 接口 为 RPF 接口 ， 下 一 跳 为 RPF 邻居 。 
需要 注意 的 是 , 组 播 静态 路 由 实际 上 属于 手工 配置 的 组 播 路 由 ， 己 经 明确 指定 了 RPF 接 
口 与 RPF 邻居 。 

然后 ， 根 据 以 下 原则 从 这 三 条 最 优 路 由 中 选择 一 条 作为 RPF 路 由 。 

。 ”如 果 配 置 了 按照 最 长 匹配 选择 路 由 ， 则 从 这 三 条 路 由 中 选 出 最 长 匹配 的 那 条 路 
由 ; 如 果 这 三 条 路 由 的 掩 码 一 样 ， 则 选择 优先 级 最 高 的 那 条 路 由 ; 如 果 它 们 的 
优先 级 也 相同 ,， 则 按照 组 播 静 态 路 由 、MBGP 路 由 、 单 播 路 由 的 顺序 进行 选择 。 

。 ”如果 没有 配置 按照 最 长 匹配 选择 路 由 ， 则 从 这 三 条 路 由 中 选 出 优先 级 最 高 的 那 
条 路 由 ; 如 果 它 们 的 优先 级 相同 ， 则 按照 组 播 静 态 路 由 、MBGP 路 由 、 单 播 路 
由 的 顺序 进行 选择 。 

最 后 , 路 由 器 会 将 报 文 的 入 接口 与 RPF 路 由 的 RPF 接口 进行 比较 。 如 果 一 致 则 RPF 

检查 通过 , 表明 该 报 文 来 源 路 径 正 确 , 会 将 其 向 下 游 转 发 ; 如 果 不 一 致 即 RPF 检查 失败 ， 
表明 该 报 文 来 源 路 径 错误 ， 就 将 其 丢弃 。 如 图 7-4 所 示 。 






Cost=100 


图 7-4 更 新 组 播 转发 表 中 RPF 接口 


R3 从 S0/0/0 接口 接收 组 播报 文 ， 组 播 路 由 表 中 S,G) 表 项 当前 的 RPF 接口 是 S0/0/0， 
但 此 时 网 络 拓扑 发 生变 化 ，R2 和 R3 间 成 本 由 100 变 为 0， 从 R3 到 组 播 源 ， 根 据 当 前 
路 由 表 ， 最 佳 下 一 跳 是 R2， 组 播 转发 表 的 RPF 接口 立即 更 新 为 S2/0/0。 当 组 播报 文 继 
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续 由 S0/0/0 接口 收 到 时 ， 此 时 收 到 报 文 的 接口 和 组 播 转 发 表 中 的 S2/0/0 口 不 一 致 ， 丢掉 
报 文 。 

默认 基于 路 由 协议 优先 级 选择 RPF 路 由 ， 如 果 改 为 基于 路 由 前 级 长 度 选 择 RPF 路 
由 ， 使 用 如 下 命令 。 

<HUAWEI> system-view 

[HUAWEI] multicast routing-enable 

[HUAWEI] multicast longest-match 

组 播 路 由 协议 通过 已 有 的 单 播 路 由 、MBGP 路 由 或 组 播 静 态 路 由 信息 来 确定 上 、 下 
游 邻居 设备 ， 创 建 组 播 路 由 表 项 。 运 用 RPF 检查 机 制 ， 来 确保 组 播 数据 流 能 够 沿 组 播 分 
发 树 ( 路 径 ) 正确 地 传输 ， 同 时 可 以 避免 转 发 路 径 上 环 路 的 产生 。 

在 实际 组 播 数据 转发 过 程 中 ， 如 果 对 每 一 份 接收 到 的 组 播 数据 报 文 都 通过 单 播 路 由 
表 进 行 RPF 检查 ， 会 给 路 由 器 带 来 很 大 负担 。 因 此 ， 路 由 器 在 收 到 一 份 来 自 源 S 发 往 组 
G 的 组 播 数据 报 文 之 后 ， 首 先 会 在 组 播 转 发 表 中 查找 有 无 相应 的 〈S,G) 组 播 转 发 表 项 。 

1， 如果 不 存在 〈S,G) 转发 表 项 ， 则 对 该 报 文 执行 RPF 检查 ， 将 检查 到 的 RPF 接 
口 作为 入 接口 ， 创 建 组 播 路 由 表 项 ， 下 发 到 组 播 转发 表 中 。 其 中 ， 对 RPF 检查 结果 的 处 
理 方式 为 :， 如 果 检 查 通 过 ， 表 明 接 收 接口 为 RPF 接口 ， 向 转发 表 项 的 所 有 出 接口 转发 ; 
如 果 检 查 失 败 ， 表 明报 文 来 源 路 径 错 误 ， 丢 弃 该 报 文 。 

2. 如 果 存 在 〈S,G) 转发 表 项 ， 并 且 接 收 该 报 文 的 接口 与 转发 表 项 的 入 接口 一 致 ， 
则 向 所 有 的 出 接口 转发 该 报 文 。 

3. 如 果 存 在 〈S,G) 转发 表 项 , 但 是 接收 该 报 文 的 接口 与 转发 表 项 的 入 接口 不 一 致 ， 
则 对 此 报 文 进行 RPF 检查 。 对 RPF 检查 结果 的 处 理 方式 为 : 

。 若 RPF 检查 选取 出 的 RPF 接口 与 转发 表 项 的 入 接口 一 致 ， 则 说 明 (S,G) 表 项 

正确 ， 报 文 来 源 路 径 错 误 ， 将 其 丢弃 ; 

。 。 若 RPF 检查 选取 出 的 RPF 接口 与 转发 表 项 的 入 接口 不 符 ， 则 说 明 〈S,G) 表 项 

已 过 时 ， 于 是 把 表 项 中 的 入 接口 更 新 为 RPF 接口 。 然 后 再 根据 RPF 检查 规则 
进行 判断 ， 如 果 接 收 该 报 文 的 接口 正 是 其 RPF 接口 ， 则 向 转发 表 项 的 所 有 出 接 
口 转发 该 报 文 ， 否 则 将 其 丢弃 。 

组 播 静 态 路 由 

如 上 场景 中 ， 组 播报 文 从 S2/0/0 接口 到 达 R3， 报 文 的 入 接口 S2/0/0 与 〈S,G) 表 项 
的 上 游 接口 不 一 致 (R3 上 组 播 〈S,G) 表 项 的 上 游 接口 是 S0/0/0)， 根据 前 面 小 节 中 的 规 
则 3， 路 由 器 对 报 文 源 地 址 10.1.1.1 执行 RPF 检查 。 图 7-5 中 R3 上 单 播 路 由 表 ， 到 达 路 
由 10.1.1.1/32， 下 一 跳 是 10.1.13.1， 出 接口 是 S0/0/0， 于 是 判定 当前 (S,G) 表 项 正确 ， 
而 该 报 文 从 错误 的 接口 进来 ， 该 报 文 被 丢弃 。 

在 R3 上 配置 组 播 静态 路 由 ， 使 用 ip rpf-route-static 10.1.1.1 255.255.255.255 10.1.23.2 
命令 后 ，R3 从 S2/0/0 接口 收 到 源 自 10.1.1.1 的 组 播报 文 ，R3 根据 上 面 的 组 播 静 态 路 由 
执行 RPF 检查 〈 组 播 静 态 路 由 的 协议 优先 级 为 1， 优 于 其 他 用 于 RPF 检查 的 单 播 路 由 协 
议 )， 检 查 的 结果 是 报 文 的 入 接口 是 RPF 接口 ， 所 以 更 新 组 播 路 由 表 ， 同 时 向 其 他 接口 
转发 组 播报 文 。 

通过 配置 组 播 静 态 RPF 路 由 ， 用 户 可 以 在 路 由 器 上 针对 特定 “ 报 文 源 ” 指 定 RPF 
接口 和 RPF 邻居 。 静 态 RPF 路 由 不 能 用 于 数据 转发 ， 它 的 作用 仅 在 于 影响 RPF 检查 。 
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组 播 静态 RPF 路 由 仅 在 所 配置 的 组 播 路 由 器 上 生效 , 不 会 以 任何 方式 被 广播 或 者 引入 给 
其 他 路 由 器 。 


GO/0/0 





Source: 10.1.1.1 


图 7-5 RPF 检查 

组 播 RPF 路 由 匹配 策略 

当 组 播 路 由 器 根据 MRIB (RPF 路 由 表 ) 选择 上 游 接 口 时 ， 若 存在 多 个 开销 相同 的 
单 播 路 由 时 , 根据 具体 的 网 络 需 要 ,用 户 可 以 从 以 下 三 种 方法 中 任 选 其 一 , 设置 路 由 器 。 

。 缺 省 情况 下 ， 选 取 下 一 跳 地 址 最 大 的 路 由 。 

。 配置 按照 最 长 匹配 原则 ， 选 取 目 的 地 址 与 “ 报 文 源 ” 地 址 匹配 最 长 的 路 由 。 

。 配置 各 路 由 之 间 的 负载 分 担 。 根 据 组 播 源 、 组 播 组 或 组 播 源 /组 来 进行 组 播 流量 

的 负载 分 担 ， 可 以 优化 存在 多 个 组 播 数 据 流 时 的 网 络 流量 。 


7.2 IGMP 


IGMP 是 Internet Group Management Protocol 的 简称 ， 又 被 称 为 互联 网 组 管理 协议 ， 
是 TCP/IP 协议 栈 中 负责 IPv4 组 播 成 员 注 册 管 理 的 协议 。IGMP 目前 有 3 个 版 本 
IGMPv1 版 本 (RFC1112)、IGMPv2 版 本 (RFC2236)、IGMPv3 版 本 (RFC3376)。 三 个 
版 本 中 , 高 版 本 协议 兼容 支持 低 版 本 协议 。 目前, IGMPv2 开始 向 IGMPv3 过 渡 , IGMPYv3 
使 用 得 越 来 越 多 。 

IGMP 协议 用 来 在 接收 者 主机 和 与 其 直接 相 邻 的 组 播 路 由 器 之 间 建 立 和 维护 组 播 组 
成 员 关 系 ， 它 的 工作 机 制 非 常 简单 ， 直 接 通 知 本 地 组 播 路 由 器 主机 想 要 接收 特定 组 的 组 
播 流 量 ， 或 主机 不 再 希望 接收 特定 组 的 组 播 流 量 ， 所 以 组 播 路 由 器 可 根据 已 知 的 组 播 组 
成 员 存在 与 否决 定 是 否 转发 组 播 流 量 。 

三 个 版 本 的 基本 区 别 如 下 : 

。 IGMPv1 定义 了 基本 的 组 成 员 查 询 和 报告 机 制 ; 

。 IGMPv2 则 在 此 基础 上 添加 了 查询 者 选举 和 组 成 员 离开 的 机 制 ; 

。 IGMPv3 中 增加 的 主要 功能 是 成 员 可 以 指定 接收 或 不 接收 来 自 某 些 “ 组 播 源 ” 

的 报 文 。 
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7.2.1 IGMP version 1 


7.2.1.1 1GMPv1 报 文 分 类 及 格式 

IGMP 协议 是 一 种 非 对 称 的 用 在 路 由 器 和 PC 机 之 间 的 组 播 协议 ，PC 机 使 用 IGMP 
协议 通知 本 地 路 由 器 希望 加 入 某 个 特定 组 播 组 ， 同 时 ， 路 由 器 也 使 用 IGMP 协议 周期 性 
地 查询 局 域 网 段 内 是 否 仍 有 已 知 组 播 组 的 成 员 存 在 。 完 成 上 述 功 能 ，IGMPv1 仅 使 用 两 
种 协议 报 文 : 

。 普遍 组 查询 报 文 ; 

。 成 员 报 告 报 文 。 

报 文 格式 如 图 7-6 所 示 。 


0 3 15 31 




















图 7-6 IGMPv1 报 文 


e Version: IGMP 版 本 ， 值 为 1。 

e Type 报 文 类 型 : 该 字段 有 以 下 两 种 取 值 ，0x1: 表示 普遍 组 查询 报 文 ， 0x2: 表 
示 成 员 报 告 报 文 。 

e ”Checksum: IGMP 报 文 的 校 验 和 。 校 验 和 是 IGMP 报 文 长 度 〈 即 IP 报 文 的 整个 
有 效 负载 ) 的 16 位 检测 。 

。 Group Address 组 播 组 地 址 : 在 普遍 组 查询 报 文中 ， 该 字段 设 为 0; 在 成 员 报 告 
报 文 中 ， 该 字段 为 成 员 加 入 的 组 播 组 地 址 。 

7.2.1.2 普遍 组 查询 报 文 ( General-Query ) 

普遍 组 查询 报 文 是 组 播 路 由 器 定期 向 局 域 网 段 内 所 有 主机 以 组 播 方式 发 送 的 查询 
报 文 ， 本 地 网 段 上 的 所 有 路 由 器 和 主机 都 能 识别 并 接收 ， 任 何 组 播 组 的 成 员 都 回应 成 员 
报告 报 文 。 查 询 报 文中 的 组 地 址 字段 为 0.0.0.0， 代 表 所 查询 的 是 任意 组 。 收 到 该 报 文 的 
接收 者 把 自己 所 属 的 组 用 下 面 的 成 员 报告 报 文告 知 路 由 器 。 

例 : 

如 果 在 网 段 上 有 多 个 接收 者 ， 同 时 有 多 台 组 播 路 由 器 R1 和 R2，RI1 接口 的 他 地址 
是 10.1.12.1，R2 接口 的 卫 地 址 是 10.1.12.2, 组 播 路 由 器 接口 上 已 启用 PIM 及 IGMPv1。 
问 : 普遍 组 查询 报 文 由 哪 台 路 由 器 负责 通告 ? 

答 : IGMPvl 并 没有 定义 “查询 者 ”这 个 角色 。 查 询 功 能 由 PIM 的 DR 充当 ， 其 负 
责 每 60s 发 普遍 组 查询 报 文 。R1 和 R2 在 建立 PIM 邻居 时 ， 先 比较 DR 优先 级 ， 若 优先 
级 一 样 , 则 IP 地 址 大 的 路 由 器 为 PIM DR。 本 例 中 , 优先 级 一 样 的 场景 下 , R2 为 PIM DR， 
并 负责 发 送 IGMP 查询 报 文 。 

， 人 
q GigabitEthemetO/o/0 
ip address 10.1.12.1 255.255.255.0 
pim dm 
igmp enable 
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7.2.1.3 成 员 报 告 报 文 Report 
成 员 报 告 报 文 分 两 种 ， 一 种 是 主机 主动 发 给 组 播 路 由 器 ， 用 于 主动 申请 加 入 某 个 组 
播 组 的 报 文 ， 另 一 种 是 收 到 IGMP 普遍 组 查询 报 文 后 ， 被 动 响应 请 求 ， 而 告知 组 播 路 由 
器 组 活跃 信息 的 报 文 。 目 标 组 地 址 字段 是 D 类 非 224.0.0.X 地 址 。 


注 : 
报告 抑制 机 制 及 查询 响应 过 程 同 IGMPv2， 可 参考 IGMPv2。 


IGMPv1 主机 的 加 入 同 IGMPv2 一 样 ，IGMPv1 没有 定义 组 成 员 的 离开 机 制 。 

IGMPv1 只 有 加 入 组 的 报告 报 文 和 查询 报 文 ， 没 有 单独 的 离开 报 文 。 当 主机 主动 离 
开 组 播 组 的 时 候 ， 如 用 户 关 掉 了 正在 观看 的 发 给 组 229.1.2.3 的 视频 ,协议 栈 不 会 产生 任 
何 离开 组 通知 。 或 者 当主 机 突然 离线 时 ， 主 机 亦 无 法 做 出 任何 通知 ， 所 以 组 播 路 由 器 并 
不 知道 本 网 段 上 已 经 没有 相应 组 播 组 的 成 员 。 这 时 ， 组 播 路 由 器 如 果 依 然 转 发 组 播 数 据 
到 该 网 段 ， 会 给 网 络 造成 过 重负 担 。 

IGMPv1 中 使 用 的 了 解 是 否 还 有 组 播 组 的 成 员 唯 一 方法 是 靠 周期 发 送 普遍 组 查询 报 
文 。 如 果 在 3 个 查询 周期 中 没有 听 到 成 员 的 报告 ， 则 认为 没有 成 员 存在 。 

IGMPv1 的 离开 延迟 时 间 默 认 是 130s, 即 组 成 员 关系 超时 时 间 , IGMP 查询 者 在 130s 
内 ,没有 收 到 任何 229.1.2.3 组 的 响应 报告 ,组 播 路 由 器 删除 接口 上 组 229.1.2.3 对 应 关系 ， 
组 播 数据 不 再 转发 到 该 接口 。 其 值 等 于 IGMP 普遍 组 查询 报 文 间隔 X 健壮 系数 + 最 
大 查询 响应 时 间 。 

igmp robust-count 命令 用 来 在 接口 上 设置 IGMP 查询 者 的 健壮 系数 ， 是 定义 可 能 发 
生 的 网 络 丢 包 而 设置 的 查询 报 文 重 传 次 数 ， 默 认 值 为 2， 健 壮 系数 会 影响 组 成 员 关 系 的 
超时 时 间 ， 健 壮 系数 越 大 ， 等 待 的 超时 时 间 就 越久 。 

igmp timer query 接口 命令 或 timer query 全 局 命令 用 来 在 查询 者 路 由 器 上 设置 普遍 组 
查询 报 文 发 送 间隔 ， 两 条 命令 同时 配置 的 情况 下 ， 接 口 的 配置 优 于 全 局 的 配置 ， 查 询 间 
隔 默认 值 是 60s。 

IGMPv1 主机 在 加 入 组 时 会 立即 发 送 报告 报 文 ， 能 立即 收 到 希望 的 组 播 数据 ， 但 当 
主机 不 希望 再 收 到 组 播报 文 时 ， 路 由 器 依然 会 在 没有 接收 主机 的 情况 下 转发 组 播 数据 到 
当前 网 段 ， 最 长 为 130s， 对 网 络 是 一 种 负担 ， 所 以 这 是 开发 IGMPv2 的 主要 原因 。 

例 : Rl 路 由 器 G0/0/0 接口 收 到 IGMP 加 入 组 229.1.2.3 成 员 报 文 。 

[Rl]display igmp group 

Interface group report information of VPN-Instance: public net 

GigabitEthernet0/0/0(10.1.34.1): 

Total 1 IGMP Group reported 
Group Address Last Reporter Uptime Expires 
229.1.2.3 10.1.12.100 00:00:02 00:02:08 

说 明 : 

组 229.1.2.3 当前 还 剩 2min8s 过 期 ， 初 始 时 间 是 130s。 只 要 当前 网 段 有 接收 者 ， 该 过 
期 时 间 不 会 小 于 70s， 因 为 每 隔 60s， 查 询 者 会 发 普遍 组 查询 报 文 ， 收 到 IGMP 响应 后 ， 计 
时 器 被 刷新 复位 。 而 如 果 主 机 突然 离线 ， 该 计时 器 过 期 ， 要 等 130s。 此 段 时 间 内 ， 路 由 
器 会 一 直 向 G0/0/0 接口 转发 组 播 数据 。 


i 408 


| 第 七 章 Multticast | 


7.2.2 IGMP version 2 


IGMPv2 在 IGMPv1 基础 上 添加 了 查询 者 选举 和 组 成 员 离开 的 机 制 ， 除 此 以 外 ， 其 
他 机 制 和 IGMPv1 基本 相似 。IGMPv2 的 变化 如 下 。 

。 选举 查询 者 : 不 需要 依赖 组 播 路 由 协议 就 可 以 选举 查询 路 由 器 。 

。 最 大 响应 时 间 字 段 : 通过 调整 响应 时 间 来 控制 过 量 响应 和 调整 离开 延迟 。 

。 ”特定 组 查询 : 允许 路 由 器 仅 查 询 一 个 组 ， 而 非 查 询 本 网 段 上 所 有 组 。 

。 离开 消息 : 离 组 消息 提供 了 一 种 方法 通知 路 由 器 当前 主机 离开 组 播 组 。 

7.2.2.1 IGMPv2 报 文 分 类 及 格式 

在 IGMPv2 中 报 文 分 路 由 器 查询 报 文 、 成 员 报 告 报 文 、 成 员 离开 报 文 。 

图 7-7 所 示 为 IGMPv2 报 文 通用 格式 。 
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图 7-7 IGMPv2 报 文 格式 


e Type (8-bit) 

报 文 类 型 。IGMPv2 与 IGMPv1 报 文 格式 的 区 别 是 没有 定义 version 字段 ， 所 以 前 8 
位 是 标识 报 文 类 型 的 。 该 字段 有 以 下 四 种 取 值 。 

0x11: 表示 查询 报 文 ， 包 括 普遍 组 查询 报 文 和 特定 组 查询 报 文 。 

0x12: 表示 IGMPvl 成 员 报告 报 文 。 

0x16: 表示 IGMPv2 成 员 报告 报 文 。 

0x17: 表示 成 员 离 开 报 文 。 

e Max Response Time (8-bit) 

最 大 响应 时 间 。 该 字段 仅 在 IGMPv2 和 v3 中 存在 ， 成 员 主 机 在 收 到 IGMP 查询 者 
发 出 的 普遍 组 查询 报 文 后 ， 需 要 在 最 大 响应 时 间 内 做 出 回应 。 该 字段 仅 在 IGMPv2 查询 
报 文中 有 效 。 在 普遍 组 查询 报 文中 ， 该 字段 的 默认 值 是 10s， 在 特定 组 查询 报 文中 ， 该 
字段 默认 值 是 1s。 

® Checksum (16-bit) 

IGMP 报 文 的 校 验 和 。 校 验 和 是 IGMP 报 文 长 度 ( 即 IP 报 文 的 整个 有 效 负载 ) 的 16 
位 校 验 和 。 

e GroupAddress (32-bit) 

组 播 组 地 址 。 在 普遍 组 查询 报 文中 ， 该 字段 设 为 全 0。 在 特定 组 查询 报 文中 ， 该 字 
段 为 要 查询 的 组 播 组 地 址 。 在 成 员 报告 报 文 和 离开 报 文 中 ， 该 字段 为 成 员 要 加 入 或 离开 
的 组 播 组 地 址 。 

查询 报 文 

1. 普遍 组 查询 报 文 : General-Query 

。 普遍 组 查询 报 文 是 查询 者 定期 向 共享 网 段 内 所 有 主机 以 组 播 方式 发 送 的 查询 报 

文 ， 用 于 查询 哪些 组 播 组 存在 成 员 。 封 装 该 报 文 的 IP 报 文 头 的 目的 地 址 为 
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224.0.0.1， 本 网 段 上 的 所 有 主机 和 路 由 器 都 能 识别 并 接收 。 


。 报 文中 普遍 组 地 址 字段 为 0.0.0.0。 
。 查询 者 每 60s 发 送 查 询 报 文 ， 初 次 成 为 查询 者 时 ， 前 2 次 报 文 间隔 15s， 其 他 
间隔 60s。 


.特定 组 查询 报 文 : Group-Specific Query 
特定 组 查询 报 文 是 查询 者 向 共享 网 段 内 特定 组 播 组 成 员 发 送 的 报 文 ， 用 于 查询 
该 组 播 组 是 否 存 在 成 员 。 
e ”封装 该 报 文 的 PP 报 文 头 的 目的 地 址 字段 为 被 查询 的 组 播 组 的 IP 地 址 ， 网 络 中 
属于 该 组 播 组 的 成 员 才 能 识别 并 响应 。 
。 组 地 址 字段 为 被 查询 的 组 播 组 IP 地 址 。 
。 仅 当 查询 者 收 到 主机 的 离 组 报 文 后 ， 才 发 送 特定 组 查询 报 文 。 
说 明 : 
普遍 组 和 特定 组 查询 报 文 的 区 别 在 于 查询 的 组 地 址 和 最 大 响应 时 间 的 不 同 ,普遍 组 查 
询 报 文中 的 查询 组 是 0.0.0.0， 最 大 响应 时 间 是 105， 时 间 可 调 ; 而 特定 组 查询 报 文 的 最 大 
响应 时 间 是 1s， 该 值 不 可 调 ， 所 查询 的 组 播 组 是 成 员 要 离开 的 组 播 组 。 


报告 报 文 

e 成员 报告 报 文 是 主机 向 组 播 路 由 器 发 送 的 报告 报 文 ， 用 于 加 入 某 个 组 播 组 或 者 
应 答 查询 的 响应 报 文 。 

。 ”封装 该 报 文 的 全 报 文 头 的 目的 地 址 字段 为 主机 要 加 入 的 组 播 组 地 址 , 本 地 网 段 
上 的 所 有 路 由 器 及 属于 该 组 的 所 有 主机 都 能 够 识别 并 接收 。 

。 ”组 地 址 字段 为 主机 要 加 入 的 组 播 组 地 址 。 

离开 报 文 

。 离开 报 文 是 主机 主动 离开 组 播 组 时 向 组 播 路 由 器 发 送 的 报 文 ， 用 于 宣告 自己 离 
开 了 某 个 组 播 组 。 

。 封装 该 报 文 的 IP 报 文 头 的 目的 地 址 字段 
224.0.0.2, 本 地 网 段 上 的 所 有 路 由 器 都 能 
识别 并 接收 。 

e ”组 地 址 字段 为 主机 要 离开 的 组 播 组 地 址 。 

7.2.2.2 查询 者 的 选举 机 制 

IGMPv2 协议 添加 了 查询 者 选举 机 制 (如 图 7-8 
所 示 )， 接 口 IP 地 址 最 小 的 IGMPv2 路 由 器 将 被 选 
举 为 查询 者 。 选 举 过 程 如 下 : 

局 域 网 段 上 的 R1 和 R2 为 IGMPv2 路 由 器 ， 
接口 G0/0/0 的 卫 地 址 为 192.168.123.1 和 192.168. 
和 3225 

1. 在 初始 时 ， 两 台 路 由 器 都 假定 自己 为 查询 
者 并 发 出 普遍 组 查询 报 文 ， 彼 此 收 到 从 对 方 发 出 的 
普遍 组 查询 报 文 ， 比 较 报 文 源 耳 地 址 ， 最 低 全 地 址 的 R1 将 成 为 查询 路 由 器 。 


® iD 





PCI1 PC2 PC3 
图 7-8 IGMP 查询 者 选举 机 制 
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2. 在 接 下 来 的 60s 内 ，R1 若 没 有 从 其 他 路 由 器 那里 收 到 任何 查询 报 文 ， 则 会 继续 
认定 自己 为 一 个 查询 者 ， 并 继续 发 送 查 询 报 文 。 


注 : 
如 果 收 到 了 查询 报 文 ,但 其 源 IP 地 址 是 0.0.0.0， 当 前 路 由 器 不 认为 对 方 是 查询 者 。 全 
零 源 地 址 的 查询 报 文 源 自 IGMP Proxy。 


3. R2 路 由 器 是 非 查询 者 ， 会 启动 一 个 “其 他 IGMP 查询 者 的 存活 时 间 ”(other- 
querier-present) 计时 器 ， 默 认 时 长 为 125s。 如 果 非 查询 者 在 这 段 时间 内 收 不 到 查询 者 发 
送 的 查询 报 文 ， 就 认为 当前 查询 者 R1 已 失效 ， 从 而 重新 发 起 查询 者 选举 ， 并 认定 自己 
是 查询 者 。 


tw 


和 注 : 

查询 者 存活 时 间 igmp timer other-querier-present 接口 命令 或 timer other-querier-present 全 局 
命令 用 来 设置 “其 他 IGMP 查询 者 的 存活 时 间 ” 计 时 器 。 如 果 二 者 同时 配置 ， 接 口 的 配置 
优 于 全 局 的 配置 。 


例 : 组 播 路 由 器 R1 和 R2 的 G0/0/0 接口 接 在 同一 个 用 户 网 段 ，G0/0/0 接口 开启 PIM 
DM 及 IGMPv2。 华 为 设备 接口 如 果 开启 IGMP， 默 认 版 本 是 IGMPv2。 要 求 非 查 询 者 
R2 若 在 100s 内 听 不 到 普遍 组 查询 报 文 ， 将 自动 成 为 查询 者 。 
配置 实现 : 


[R2] multicast routing-enable 

[R2]jint G0/0/0 

[R2-GigabitEthernetO/0/0Jigmp enable 
-GigabitEthernet0/0/0]Jigmp timer other-querier-present 100 

# 上 述 配 置 建议 在 同 网 段 上 的 多 台 组 播 路 由 器 上 配置 一 至 


缺 省 情况 下 ,“ 其 他 IGMP 查询 者 ”的 存活 时 间 的 计算 公式 是 :“ 其 他 IGMP 查询 者 
的 存活 时 间 ” 三 健壮 系数 xIGMP 普遍 查询 报 文 发 送 间 隔 + (1/2〉 x 最 大 查询 响应 时 间 。 
当 健 壮 系数 、IGMP 普遍 查询 报 文 发 送 间 隔 和 最 大 查询 响应 时 间 都 取 默 认 值 时 ， 其 他 
IGMP 查询 者 的 存活 时 间 的 值 为 125s。 
7.2.2.3 IGMPv2 查询 一 响应 机 制 
IGMPv2 查询 和 响应 机 制 同 IGMPv1 相似 。 
。 IGMPv2 路 由 器 初次 成 为 查询 者 时 会 相继 发 送 2 次 普遍 组 查询 ,间隔 15s, 方便 
迅速 了 解 组 员 信息 。 此 后 ， 才 间隔 60s 周期 发 送 普遍 组 查询 。 
。 IGMPv2 的 普遍 组 查询 报 文中 ， 添 加 了 最 大 响应 时 间 字 域 ， 默 认 值 为 0x64， 十 
进 制 为 100， 代 表 10s， 可 调 大 或 调 小 。 如 果 不 考虑 报告 抑制 机 制 的 作用 ， 该 值 
越 大 ， 由 IGMP 报告 所 引起 的 突 发 就 小 ， 而 如 果 值 越 小 ， 突 发 就 相应 变 大 。 
igmp max-response-time 命令 在 IGMPv2 中 用 来 调整 最 大 响应 时 间 ， 最 大 值 为 25s。 
7.2.2.4 报告 抑制 机 制 
成 员 报告 抑制 机 制 是 IGMPv1/v2 主机 的 特性 ， 其 目的 用 于 降低 主机 收 到 查询 报 文 
后 ,所 有 成 员 主 机 都 进行 响应 而 带 来 的 性 能 问题 。 但 也 因为 主机 间 的 这 种 报告 抑制 机 制 ， 
组 播 路 由 器 在 查询 时 仅 知道 有 相应 组 的 成 员 存在 ， 却 无 法 了 解 到 当前 的 组 播 组 中 有 多 少 
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成 员 存在 。 当 然 ，IGMPv1 最 初 开发 时 确实 也 没有 考虑 到 是 否 要 求 路 由 器 了 解 所 有 组 员 
的 信息 ， 但 从 IGMPv2 开始 ， 这 个 问题 作为 一 个 可 选项 ， 在 大 多 数 的 IGMP 实现 中 加 入 
进来 。 

7.2.2.5 IGMPv2 离开 机 制 

相 比 于 IGMPv1，IGMPv2 增加 了 一 种 离开 组 
报告 ,允许 主机 告诉 路 由 器 它 要 离开 组 播 组 。 这 样 ， 
当 最 后 一 个 成 员 离开 组 时 ， 离 网 延迟 减少 ， 路 由 器 
就 可 以 立即 停止 转发 组 播报 文 到 该 网 段 。 但 由 于 路 rl 枚 2 汪 
由 器 一 般 不 记录 当前 网 段 有 多 少 相应 组 的 组 员 ， 所 。 IGMP 坦 询 器 人 O) 什 2 
以 每 收 到 一 份 离 组 报告 ， 都 会 触发 查询 者 路 由 器 发 “2 24 | nn 
送 特定 组 查询 报 文 ， 确 认 是 否 还 有 其 他 成 员 。 

在 IGMPv2 中 ，PC1 离开 组 播 组 G1 的 过 程 
如 下 。 

1. 如 果 PC1 是 组 播 组 229.1.2.3 唯一 的 成 员 ， 
且 要 离开 改组 ，PC1 立即 发 送 目的 地 址 为 224.0.0.2 
的 离 组 报 文 ， 报 文中 组 播 组 字段 为 229.1.2.3。 

2. R1 作为 查询 者 收 到 PC1 的 离开 报 文 ， 会 立即 发 送 特定 组 查询 报 文 ， 目 标 地 址 为 
229.1.2.3， 并 且 特 定 组 查询 报 文中 的 最 大 响应 时 间 字 段 值 为 0xA， 即 1s，1s 时 间 同 时 也 
是 特定 组 查询 报 文 的 发 送 间隔 。 

如 果 该 网 段 内 还 存在 组 229.1.2.3 的 其 他 成 员 ( 如 图 7-9 所 示 的 PC2)，PC2 会 在 收 
到 查询 者 发 送 的 特定 组 查询 报 文 后 ,在 该 报 文 指定 的 最 大 响应 时 间 内 发 送 成 员 报 告 报 文 ， 
目标 地 址 为 229.1.2.3。 组 播 路 由 器 R1 和 R2 收 到 PC2 的 报告 报 文 后 将 继续 为 该 网 段 维 
护 该 组 成 员 关系 。 

如 果 该 网 段 内 不 存在 组 229.1.2.3 的 成 员 ， 查 询 者 将 不 会 在 Timer-Membership 超时 
前 , 收 到 229.1.2.3 组 的 报告 报 文 .在 Timer-Membership 超时 后 , 查询 者 将 删除 组 229.1.2.3 
和 接口 的 对 应 关系 。Timer-Membership 计时 器 的 时 间 是 28， 此 期 间 特 定 组 查询 报 文 发 送 
2 次 。 

Timer-Membership 计时 器 时 长 = 特定 组 查询 报 文 发 送 间 隅 X 报 文 发 送 次 数 

或 使 用 igmp lastmember-queryinterval 命令 或 lastmember-query interval 命令 在 接口 上 
配置 IGMP 查询 者 在 收 到 主机 发 送 的 IGMP 离开 报 文 时 , 发 送 IGMP 特定 组 \ 源 组 查询 报 
文 的 时 间 间 隔 。 取 值 范围 是 1 一 5， 单 位 是 秒 。 发 送 间隔 为 本 命令 设置 的 interval。 如 果 
在 一 段 时 间 内 没有 收 到 成 员 的 报告 报 文 ， 则 停止 转发 该 组 播 组 数据 。 这 “一 段 时 间 ” 由 
intervalxrobust-value 定义 ， 其 中 ，robust-value 通过 igmp robust-count 接口 命令 或 robust- 
count 全 局 命令 配置 。 

如 果 查 询 者 在 intervalxrobust-value 时 间 内 收 到 主机 发 送 的 报告 报 文 ， 就 会 继续 维护 
该 组 的 组 成 员 关 系 ; 否则 就 认为 网 段 内 该 组 的 最 后 一 个 成 员 已 经 离开 ， 不 再 维护 该 组 的 

IGMPv2 中 ， 组 播 组 中 最 后 一 个 主机 正常 离开 时 ， 组 播 路 由 器 在 2s 后 ， 停 止 转发 组 
播 流 量 。 但 若 在 IGMPv2 场景 下 最 后 一 个 主机 异常 离线 ， 则 组 播 路 由 器 在 没有 收 到 离 组 






PC1 PC2 PC3 
图 7-9 IGMPv2 离开 机 制 
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报 文 的 情况 下 ， 仍 需要 使 用 130s 来 判定 有 没有 必要 再 转发 流量 到 当前 网 段 。 最 好 2s、 
最 坏 130s 的 离开 延迟 使 IGMPv2 优 于 IGMPv1 130s 离开 延迟 。 

IGMPv2 查询 者 路 由 器 在 每 次 收 到 任意 主机 发 的 离 组 报 文 时 ， 都 会 重复 上 面 的 

如 果 用 户 所 在 网 段 ， 网 络 质量 较 差 ， 延 迟 较 大 ， 请 修改 R1 的 默认 的 特定 组 查询 间 
隔 及 查询 次 数 。 

[r1] multicast routing-enable | ~ 

[r1] interface gigabitethernet 0/0/0 

[rl-GigabitEthermet0/0/0] igmp robust-count 3 

[rl-GigabitEthernet0/0/0] igmp lastmember-queryinterval 3 


7.2.3 IGMP version 3 


IGMPv3 添加 了 对 “ 源 过 滤 ” 功 能 的 支持 ， 使 系统 有 能 力 报告 路 由 器 ， 希 望 仅 接 收 
来 自 于 特定 源 的 组 播 流 量 ， 或 者 向 路 由 器 报告 希望 仅 接收 “除了 特定 源 ” 以 外 的 其 他 源 
发 出 来 的 组 播 流量 。 

为 实现 上 述 功能 ，IGMPv3 对 成 员 报 告 报 文 做 了 修改 ,区别 于 IGMPv1 及 v2 报 文 中 
仅 通 告 加 入 的 组 播 组 ，IGMPv3 添加 了 一 种 能 够 表达 组 和 源 的 组 记录 (Group-Record)， 
简单 表达 为 三 元 组 〈 组 地 址 、 过 滤 模 式 、 源 地 址 列表 )， 来 向 组 播 路 由 器 表达 希望 接收 特 
定 组 播 流 的 意图 。 例如 主机 发 送 成 员 报告 含有 一 个 组 记录 (229.1.2.3, include，(10.1.1.1， 
20.1.1.2)), 组 播 路 由 器 听 到 后 ， 了 解 到 有 组 播 接 收 者 希望 接收 源 自 于 10.1.1.1 或 20.1.1.2 
的 发 向 229.1.2.3 的 组 播 流 量 。 组 记录 中 ，include 是 一 种 过 滤 模 式 ， 和 源 地 址 列表 组 合 使 
用 ， 代 表 包 含 关 系 ， 即 希望 接收 源 地 址 列表 中 源 的 流量 ; 反之， 相对 应 的 Exclude 过 波 
模式 则 代表 不 包含 ， 排 除 关系 ， 即 不 接收 源 地 址 列表 所 列 源 来 的 组 播 流量 。 

IGMP 其 他 版 本 并 不 支持 上 述 过 滤 模 式 ， 而 且 接口 的 数据 结构 也 相当 简单 。 但 从 
IGMPv3 开始 ， 新 的 表达 方式 应 用 于 组 播 路 由 器 ， 接 口 开 始 使 用 (组 、 过 滤 模 式 和 组 播 
源 ) 这 种 表达 。 、 

在 路 由 器 上 使 用 Display igmp group 可 观察 到 当前 路 由 器 了 解 到 成 员 所 属 组 信息 。 

7.2.3.1 IGMPv3 报 文 分 类 及 格式 

IGMPv3 仅 有 两 种 报 文 类 型 ， 类 型 为 0x11 的 查询 报 文 和 类 型 为 0x22 的 成 员 报告 报 
文 ， 但 出 于 兼容 ， 它 支持 并 识别 其 他 三 种 以 前 版 本 的 报 文 ， 分 别 是 : 

类 型 为 0x12 的 IGMPv1l 成 员 报告 报 文 ; 

类 型 为 0x16 的 IGMPv2 成 员 报 告 报 文 ; 

类 型 为 0x17 的 IGMPv2 离开 组 报 文 。 

查询 报 文 

IGMPv3 查询 报 文 分 为 以 下 三 种 一 一 普遍 组 查询 、 特 定 组 查询 及 特定 组 及 源 查 询 。 

e Type (8-bit) 

0x11 代表 查询 报 文 。 

e MaxResponse Code (8-bit) 

最 大 响应 时 间 。 成 员 主机 在 收 到 IGMP 查询 者 发 送 的 普遍 组 查询 报 文 后 ， 需 要 在 最 
大 响应 时 间 内 做 出 回应 。IGMPv3 三 种 查询 报 文 的 格式 如 图 7-10 所 示 。 
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图 7-10 IGMPv3 三 种 查询 报 文 的 格式 


e Checksum (16-bit) 

IGMP 报 文 的 校 验 和 。 校 验 和 是 IGMP 报 文 长 度 〈 即 IP 报 文 的 整个 有 效 负 载 ) 的 16 
位 检测 。Checksum 字段 在 进行 校 验 计算 时 设 为 0。 当 发 送 报 文 时 ， 必 须 计 算 校 验 和 并 插 
入 到 Checksum 字段 中 去 。 当 接收 报 文 时 ， 校 验 和 必须 在 处 理 该 报 文 之 前 进行 检验 。 

e GroupAddress (32-bit) 

组 播 组 地 址 。 在 普遍 组 查询 报 文中 ， 该 字段 设 为 0; 在 特定 组 查询 报 文 和 特定 源 组 
查询 报 文中 ， 该 字段 为 要 查询 的 组 播 组 地 址 。 

e Resv (4-bit) 

保留 字段 。 发 送 报 文 时 该 字段 设 为 0， 接 收报 文 时 ， 对 该 字段 不 做 处 理 。 

e S (suppress router-side processing) (1-bit) 

该 比特 位 为 1 时 ， 所 有 收 到 此 查询 报 文 的 其 他 路 由 器 不 启动 定时 器 刷新 过 程 ， 但 是 
此 查询 报 文 并 不 抑制 查询 者 选举 过 程 和 路 由 器 的 主机 侧 处 理 过 程 。 默 认 未 置 位 。 

® QRV (Querier’s Robustness Variable) (3-bit) 

查询 者 向 网 络 通告 的 健壮 系数 (Robustness Variable)。 其 他 路 由 器 接收 到 查询 报 文 
时 , 如果 发 现 该 字段 非 0, 则 将 自己 的 健壮 系数 调整 为 该 字段 的 值 ; 如 果 发 现 该 字段 为 0， 
则 不 做 处 理 。 默 认 健壮 系数 值 为 2。 此 参数 可 使 查询 者 使 用 自己 的 健壮 系统 同步 其 他 组 
播 路 由 器 的 健壮 系数 

e QQIC (querier’s query interval code) (8-bit) 

IGMP 查询 者 的 查询 间隔 ， 单 位 为 s。 非 查询 者 收 到 查询 报 文 时 ， 如 果 发 现 该 字段 非 
0， 则 将 自己 的 查询 间隔 参数 调整 为 该 字段 的 值 ; 如 果 发 现 该 字段 为 0， 则 不 做 处 理 。 默 
认 值 为 60。 

® Number of Sources (16-bit) 

报 文 中 包含 的 组 播 源 的 数量 。 对 于 普遍 组 查询 报 文 和 特定 组 查询 报 文 ， 该 字段 为 0; 
对 于 特定 源 组 查询 报 文 ， 该 字段 非 0。 

® SourceAddress (32-bit) 

组 播 源 地 址 ， 其 数量 受到 Number of Sources 字段 值 大 小 的 限制 。 

根据 组 地 址 和 源 地 址 的 不 同 ， 划 分 出 下 面 三 种 查询 报 文 。 

1. 普遍 组 查询 报 文 : General Query 

。 普遍 组 查询 报 文 是 查询 者 定期 向 共享 网 段 内 所 有 主机 以 组 播 方式 发 送 的 查询 报 

文 ， 用 于 发 现 组 播 组 成 员 ， 并 维护 组 播 组 与 源 列表 的 对 应 关系 。 
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。 ”封装 该 报 文 的 全 报 文 头 的 目的 地 址 字段 为 224.0.0.1, 本 地 网 段 上 的 所 有 主机 和 
路 由 器 都 能 识别 并 接收 。 
。 ”Group Address 字段 和 Number of Sources 都 为 0。 
2. 特定 组 查询 报 文 : Group-Specific Query 
。 特定 组 查询 报 文 是 查询 者 向 共享 网 段 内 特定 组 播 组 成 员 发 送 的 报 文 ， 用 于 查询 
该 组 播 组 是 否 存在 成 员 。 
。 ”封装 该 报 文 的 IP 报 文 头 的 目的 地 址 字段 为 被 查询 的 组 播 组 的 IP 地 址 ， 本 地 网 
段 上 的 所 有 路 由 器 及 属于 该 组 的 所 有 主机 都 能 够 识别 并 接收 。 
。 组 播 组 字段 为 被 查询 的 组 播 组 IP 地 址 。Number of Sources 字段 为 0。 
3. 特定 组 / 源 查 询 报 文 : Group-and-Source-Specific Query 
。 ”特定 组 查询 报 文 是 查询 者 向 共享 网 段 内 特定 组 播 组 成 员 发 送 的 报 文 ， 用 于 查询 
该 组 成 员 是 否 愿 意 接收 特定 源 发 送 的 数据 。 
。 ”封装 该 报 文 的 IP 报 文 头 的 目的 地 址 字段 为 被 查询 的 组 播 组 的 IP 地 址 ， 本 地 网 
段 上 的 所 有 路 由 器 及 属于 该 组 的 所 有 主机 都 能 够 识别 并 接收 。 
e。 组 播 组 字段 为 被 查询 的 组 播 组 IP 地 址 .Number of Sources 字段 为 报 文 中 包含 的 
组 播 源 数量 。Source Address 字段 为 向 该 组 发 送 组 播报 文 的 源 地 址 。 
报告 报 文 
IGMPv3 成 员 报告 报 文 区 别 于 IGMPv1 及 v2 报告 报 文 , 使 用 组 记录 来 表达 组 和 源 的 
对 应 关系 ， 而 且 ， 从 图 7-11 IGMPv3 报告 报 文 的 格式 中 ， 可 看 出 在 一 份 主 机 通告 的 成 
员 报告 报 文中 可 携带 多 个 组 记录 ， 可 同时 通告 多 个 组 及 源 的 对 应 给 组 播 路 由 器 ， 需 要 
的 IGMPv3 报告 报 文 数量 可 大 大 减少 ， 这 区 别 于 IGMPv1v2 一 份 报 文 只 能 携带 一 个 组 
播 组 。 





图 7-11 IGMPv3 成 员 报告 报 文 格式 


© Type: 8-bit 

0x22 代表 IGMPv3 的 成 员 报告 报 文 。 

© Reserved (8-bit) 

保留 字段 。 发 送 报 文 时 该 字段 设 为 0， 接 收报 文 时 ， 对 该 字段 不 做 处 理 。 

e Checksum (16-bit) 

IGMP 报 文 的 校 验 和 。 校 验 和 是 IGMP 报 文 长 度 〈 即 IP 报 文 的 整个 有 效 负 载 ) 的 16 
位 校 验 和 。Checksum 字段 在 进行 校 验 计算 时 设 为 0。 当 发 送 报 文 时 ， 必 须 计 算 校 验 和 并 
插入 到 Checksum 字段 中 去 。 当 接收 报 文 时 ， 校 验 和 必须 在 处 理 该 报 文 之 前 进行 检验 。 
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e Number of Group Records (16-bit) 
报 文中 包含 的 组 记录 的 数量 。 
e Group Record 
组 记录 。 每 个 组 记录 是 一 块 字 域 ， 包 含 发 送 者 接口 当前 所 要 表达 的 成 员 关 系 信息 ， 
具体 格式 如 图 7-12 记录 格式 。 格 式 说 明 见 表 7-2 所 示 。 


0 这 15 31 





Auxiliary Data 


图 7-12 组 记录 格式 


表 7-2 组 记录 格式 说 明 
字段 = 人 ' 说 明 + 和 WE 
组 记录 的 类 型 包含 当前 状态 记录 (current-state record ) 和 状态 变化 记录 
(state-change record) 


1， 当前 状态 记录 含 两 种 类 型 
。 MODE IS INCLUDE 
。 MODE IS_EXCLUDE 
Record Type 2. 状态 改变 记录 包含 过 滤 模 式 改 变 记录 和 源 列表 改变 记录 。 
过 滤 模 式 改 变 记录 包含 两 种 类 型 : 
。 CHANGE TO INCLUDE MODE CHANGE TO EXCLUDE MODE 
源 列 表 改 变 记录 包含 两 种 类 型 : 
。 ALLOW NEW SOURCES 
。 BLOCK OLD SOURCES 


辅助 数据 长 度 。 在 IGMPv3 的 报告 报 文中 ， 由 于 不 存在 辅助 数据 字段 ， 所 以 该 
字段 内 容 为 0 


Number of Sources | 组 记录 中 包含 的 源 地 址 数量 
Multicast Address | 组 播 组 地 址 
Sources Address “| 组 播 源 地 址 
Auxiliary data 包含 有 关 group record 的 额外 信息 。 目 前 协议 不 要 求 使 用 该 字 域 


组 记录 种 类 及 使 用 

IGMPv3 使 用 相应 的 过 滤 模 式 来 通知 路 由 器 欲 接收 的 组 播 源 ， 组 记录 的 简单 关系 可 
表示 为 : 

(G，INCLUDE，(S1、S2、S3…)) 或 (G，EXCLUDE，(S1、S2、S3… ))。 

其 中 , INCLUDE 和 EXCLUDE 代表 过 滤 模 式 , 如 果 是 “INCLUDE，(S1, S2, S3)”， 
则 代表 接收 S1、S2、S3 的 组 播 流 ， 而 如 果 是 “EXCLUDE，(S1，S2，S3)”， 则 代表 不 


Aux Data Len 
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接收 S1、S2、S3 的 组 播 流 。 
在 一 份 组 报告 报 文中 ， 可 同时 包含 多 个 不 同类 型 的 上 述 组 记录 ， 但 实际 上 ， 组 记录 
的 类 型 不 止 上 面 两 种 ， 可 分 成 报告 “当前 状态 ”的 组 记录 和 “状态 改变 ”的 组 记录 。 
“当前 状态 组 记录 (Current-State-Record)” 出 现在 当主 机 收 到 查询 时 ， 响 应 的 成 员 
报告 中 用 来 报告 主机 接口 当前 的 状态 。“ 当前 状态 组 记录 ”的 类 型 共有 2 种 。 
1. 类 型 值 为 MODE IS_ INCLUDE 
表明 接口 对 组 播 组 的 过 滤 模 式 为 INCLUDE， 如 果 源 地 址 列表 非 空 ， 表 明 仅 接收 源 
地 址 所 指定 的 组 播 源 来 的 组 播 流 ， 但 如 果 源 地 址 列表 空 ， 则 报 文 无 效 。 
如 果 路 由 器 发 送 普 遍 组 查询 ， 主 机 分 别 回应 以 下 报告 
例 : 回应 Report (G，1IS_INCLUDE，(S1，S2，S3))， 代 表 当 前 的 接口 仅 接收 来 自 
S1、S2、S3 发 往 G 的 组 播 流 。 
例 : 回应 Report (G1, IS INCLUDE, (S1)) (G2, IS INCLUDE，(S2，S3)) 代 
表 当 前 接口 接收 S1 发 往 G1 的 组 播 流 以 及 S2、S3 发 往 G2 的 组 播 流 。 
例 : 回应 Report (G1, IS INCLUDE, (S1)) (G1, IS INCLUDE，(S2，S3)) 这 
种 表达 的 报 文 不 存在 ， 在 一 份 报告 中 ， 同 一 个 组 播 组 只 能 有 一 种 类 型 的 组 记录 。 
2 类 型 值 为 MODE IS_EXCLUDE 
表明 接口 对 组 播 流 的 过 滤 模 式 为 EXCLUDE， 即 该 接口 不 接收 源 地 址 列表 中 所 列 的 
源 地 址 流出 给 特定 组 播 组 的 组 播 流 。 如 果 源 地 址 列表 为 空 ， 表 明 不 过 滤 任 何 源 来 的 组 播 
流 ; 但 如 果 源 列表 为 非 空 ， 则 不 接收 所 列 源 地 址 所 发 出 的 组 播 流 ， 而 仅 接收 其 他 未 列 出 
的 源 地 址 发 出 的 组 播 流 。 
例 : 回应 Report (G1，IS_EXCLUDE，(S1，S2))， 代 表 当 前 接口 不 接收 从 源 S1、 
S2 发 出 的 组 播 流 ， 接 收 其 他 源 发 给 G1 的 组 播 流 。 
例 : 回应 Report (G1，IS_EXCLUDE，())， 代 表 当 前 接口 接收 来 自任 意 源 的 组 
状态 变化 记录 类 型 
主机 接口 的 状态 不 会 一 直 不 变 ， 会 由 一 种 状态 变 为 另外 一 种 状态 ， 这 包含 过 滤 模 式 
的 变化 和 源 地 址 列表 的 变化 。 
过 滤 模 式 变化 记录 (Filter-Mode-Change Record) 
任何 时 候 接口 的 过 滤 模 式 发 生变 化 时 ， 即 由 INCLUDE 变 为 EXCLUDE 或 由 
EXCLUDE 变 为 INCLUDE 时 ， 在 主机 发 送 的 成 员 报告 报 文中 包含 “过 滤 模 式 变化 ” 记 
录 ， 共 有 两 种 类 型 。 
。 CHANGE TO INCLUDE MODE ， 表 示 过 滤 模 式 由 EXCLUDE 转换 到 
INCLUDE, 开始 接收 源 地址 列表 包含 的 新 组 播 源 发 往 该 组 播 组 的 数据 。 如 果 指 
定 源 地 址 列表 为 室 ， 主 机 将 离开 组 播 组 。 
例 : 主机 接口 当前 接收 状态 为 《G，EXCLUDE，(S1，S2，S3))， 若 用 户 意欲 接收 
组 播 源 S1、S2 的 组 播 流 , 则 主机 发 送 组 记录 (G, CHANGE TO _INCLUDE，(S1, S2))。 
。 CHANGE TO EXCLUDE MODE ， 表 示 过 滤 模 式 由 INCLUDE 转换 到 
EXCLUDE， 不 接收 源 地 址 列表 包含 的 新 组 播 源 发 往 该 组 的 组 播 数 据 。 
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例 : 主机 当前 接收 状态 为 《G，INCLUDE，(S1，S2))， 如 改变 为 接收 其 他 组 播 源 
的 组 播 流 ， 则 发 送 组 记录 (G, CHANGE TO EXCLUDE, (S1,，S2))。 

源 列 表 变 化 记录 (Source-List-Change Record) 

当主 机 希望 接收 其 他 组 播 源 的 组 播 流 时 , 会 主动 发 送 包含 “通告 源 变化 ”的 组 记录 ， 
共 两 种 类 型 。 

1. ALLOW_NEW_SOURCES， 表 示 在 现 有 的 基础 上 ， 需 要 再 接收 源 地 址 列表 包含 
的 组 播 源 发 往 该 组 播 组 的 组 播 数据 。 如 果 当 前 先 有 的 对 应 关系 为 INCLUDE， 则 向 现 有 
源 列表 中 添加 这 些 组 播 源 ， 如 果 当 前 对 应 关系 为 EXCLUDE， 则 从 现 有 阻塞 源 列表 中 删 

2. BLOCK _ OLD_ SOURCES， 表 示 在 现 有 的 基础 上 ， 不 再 接收 源 地 址 列表 包含 
的 组 播 源 发 往 该 组 播 组 的 组 播 数据 。 如 果 当 前 对 应 关系 为 INCLUDE， 则 从 现 有 源 列 
表 中 删除 这 些 组 播 源 ; 如 果 当 前 对 应 关系 为 EXCLUDE， 则 向 现 有 源 列 表 中 添加 这 些 
组 播 源 。 

例 : G 组 播 组 员 接收 S1、S2、S3 和 S4 组 播 源 的 组 播 流 ， 如 果 一 个 接口 发 生源 列表 的 
变化 ，G 组 播 组 接收 S1、S2 的 新 的 组 播 源 的 组 播 流 ， 不 再 接收 S3、S4 的 组 播 源 的 组 播 流 。 

答 : Report(G, ALLOW_NEW_SOURCE, (S1, S2) ) (G, BLOCK OLD SOURCES， 
(S33 4 ¥ 

接口 状态 的 变化 会 致 系统 立即 发 送 状态 变化 通告 给 路 由 器 。 报 告 中 的 组 记录 的 类 型 
和 内 容 依 状态 变化 前 后 接口 过 滤 模 式 和 源 地 址 列表 的 变化 而 定 。 表 7-3 为 不 同 场景 下 
IGMPv3 组 记录 的 通告 内 容 。 

例 : 每 种 状态 都 使 用 三 元 组 来 表示 ，G 代表 组 地 址 ，A、B 代表 源 地 址 列表 。 

表 7-3 不 同 场景 下 IGMPY3 V3 组 记录 通告 内 容 

” ”发送 的 Group Records 的 内 容 


G, INCLUDE, (A) ) (G, IS_IN, (A) ) 





1 

2 ee (G, EXCLUDE, (A) ) (G, IS_EX, (A) ) 

3 |(G, INCLUDE, (A) ) (G，BLOCK OLD SOURCE, (A) ) 
4 | (G, EXCLUDE, (A) ) (G, TO_IN, (NULL) ) 


(G, BLOCK OLD SOURCE, (A-B) ) 

(G, EXCLUDE, (A) ) (G, ALLOW_NEW_SOURCE, (A-B) ) 

(G, BLOCK OLD SOURCE, (B-A) ) 
| (G, EXCLUDE,(B)) | (G, TO EX, (B) ) 
; COTTON (B)) 

7.2.3.2 ”查询 响应 机 制 

在 IGMPv3 中 查询 响应 机 制 及 查询 者 的 选举 机 制 同 IGMPv1lv2 相同 。 

在 IGMPv3 中 ,查询 者 的 选举 机 制 与 IGMPv2 相同 ， 依 据 最 小 IP 地 址 。 当 一 台 路 由 
器 收 到 最 小 IP 地 址 的 查询 ， 它 设置 Other-Querier-Present 计时 器 为 125s， 并 且 停 止 再 发 
送 查 询 报 文 ， 如 果 在 125s 期 间 ， 未 听 到 普遍 组 查询 ， 则 提升 自己 为 查询 者 ， 开 始 发 送 普 
遍 组 查询 。 
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在 IGMPv3 中 ,在 查询 报 文中 , 含 查询 者 设置 


的 Robustness Variable (默认 为 2) 和 Query Interval i 
(默认 60s)， 当 非 查询 者 路 由 器 听 到 查询 者 的 查询 

报 文 时 , 会 根据 报 文中 的 健壮 系数 和 查询 间隔 修改 pe 

自己 的 健壮 系数 和 查询 时 间 间 隔 , 最 终 所 有 非 查询 

者 会 拥有 和 查询 者 一 样 的 Other-Querier-Present 时 和 :这 


则 。 

图 7-13 中 , 有 R1 和 R2 两 台 IGMPv3 路 由 器 ， 
R1 的 全 地 址 最 小 ， 所 以 RI1 为 查询 者 。 图 7-14 是 
R1 上 调整 健壮 系数 为 5 的 抓 包 截图 。 

接口 配置 命令 IGMP robust-count 5。R2 的 本 I | BG | 


Other-Querier-Timer 时 间 变 为 查询 者 的 健壮 系数 图 7-13 IGMPv3 查询 响应 
5x60+ (最 大 响应 时 间 /2)，。 





Ethernet II, Src: HuaweiTe 8e:40:f3 (00:e0:fc:8e:40:f3) ，Dst: ITPvdntcast_01 (01:00:5e:;00:00:01) 
田 Internet Protocol Version 4, src: 10.1.78.7 (10.1.78.7), Dst: 224.0.0.1 (224.0.0.1) 
日 Internet Group Management Protocol 
[IGMP Version: 3] 
Type: Membership Query (Ox11) 
Max Resp Time: 10.0 sec (0x64) 
Header checksum: Oxe95f [correct] 
Multicast Address: 0.0.0.0 (0.0.0.0) 
已 QRV=5 S=DO not Suppress router side processi 
+» 0... = 5: Do not suppress router side processing 
sas sl0l = QRV:; 5 


图 7-14 RI1 查询 者 发 送 的 普遍 组 查询 报 文 


R2 非 查 询 者 路 由 器 听 到 R1 的 普遍 组 查询 后 ， 应 该 在 上 述 的 Other-Querier-Timer 内 
保持 非 查 询 者 角色 。 而 PC1 和 PC2 都 听 到 上 述 查 询 报 文 , 会 在 最 大 响应 时 间 以 内 回应 各 
自 的 成 员 报告 报 文 。 路 由 器 根据 反馈 的 组 成 员 报告 发 现 网 段 中 的 组 成 员 ， 并 维护 组 播 组 
与 源 列表 的 对 应 关系 。 

。 当 查 询 者 接收 到 离开 某 组 播 组 的 报告 (G，CHANGE TO _INCLUDE,，( )) 时 ， 

发 送 特定 组 查询 报 文 ， 判 断 网 络 中 是 否 还 存在 组 G 成 员 。 路 由 器 根据 反馈 的 组 
成 员 报告 更 新 相应 的 组 及 源 列表 。 

。 ” 当 查询 者 接收 到 主机 发 送 的 改变 组 播 组 与 源 列 表 的 对 应 关系 的 报告 (G， 
BLOCK_NEW_SOURCE，Sourse_list) 时 ,发送 两 次 指定 源 / 组 查询 报 文 。 如 果 
组 成 员 希 望 接收 其 中 任意 一 个 源 的 组 播 数据 ， 则 将 反馈 报告 报 文 。 路 由 器 根据 
反馈 的 组 成 员 报 告 更 新 该 组 对 应 的 源 列表 。 

7.2.3.3” 加 入 机 制 

如 果 主 机 和 路 由 器 之 间 应 用 IGMPv1 或 IGMPv2， 用 户 加 入 到 某 组 播 组 G 后 ， 将 可 
能 同时 接收 到 来 自 组 播 源 S1 和 S2 的 组 播 信息 。 而 如 果 采 用 IGMPv3， 用 户 可 以 选择 仅 
接收 S1 组 播 信息 ， 即 IGMPv3 具备 控制 接收 源 的 能 力 。 


419 Sas 


| HCIE 路 由 交换 学 习 指南 | 


例 : 用 户 发 送 IGMPv3 报告 (G，1IS_INCLUDE，(S1))， 仅 接收 源 S1 向 组 播 组 G 
发 送 的 数据 。 

例 : 用 户 发 送 IGMPv3 报告 (G，IS_EXCLUDE，(S2))， 退 出 指定 源 S2 对 应 的 组 
播 组 G， 从 而 仅 有 来 自 S1 的 组 播 信息 才能 传递 到 接收 者 。 

不 论 是 哪 种 方法 ， 组 播 路 由 器 会 在 每 个 接口 维护 组 播 组 、 组 播 源 和 过 滤 模 式 
(INCLUDE 或 EXCLUDE)， 这 直接 决定 来 自 指定 源 的 组 播 流 是 否 流 到 该 接口 。 

例 : 如 果 多 个 接收 者 都 发 送 加 入 报告 ，Report (G, IS INCLUDE, (S1)) 和 Report 
(G，1JIS INCLUDE，(S2))， 则 路 由 器 接口 维持 组 对 应 关系 ， G， 过 滤 模 式 INCLUDE， 
Source 列表 (S1，S2)。 所 以 ， 路 由 器 会 转发 从 源 S1、S2 来 的 组 播 流量 至 当前 网 段 。 

例 : 如 果 一 个 接收 者 发 送 加 入 报告 Report(G，IS_IN，S1)， 另 一 个 接收 者 发 送 加 入 报 
告 Report (G, IS EXCLUDE，S2) 或 Report (G，CHANGE TO EXCLUDE，S2) 路 由 器 
维护 的 组 和 源 的 对 应 关系 为 G， 过 滤 模 式 为 exclude，source 列表 为 S2; 路 由 器 如 果 收 到 多 
份 加 入 同一 个 组 的 组 记录 ， 只 要 有 一 个 组 记录 的 类 型 为 EXCLUDE 模式 ， 路 由 器 就 把 接口 
的 G 组 状态 中 的 过 滤 模 式 改 为 EXCLUDE， 不 论 还 收 到 多 少 INCLUDE 模式 组 记录 。 


绕 诊 : 
路 由 器 会 转发 来 自 非 52 的 其 他 源 的 流量 到 当前 网 段 。 


[Frs]display igmp group interface g0/0/0 verbose 
Interface group report information of VPN-Instance: public net 
Limited entry of this VPN-Instance: - 
GigabitEthermet0/0/0(56.1.1.5): 
Total entry on this interface: 1 
Limited entry on this interface: - 
Total 1 IGMP Group reported 
Group: 229.1.1.100 
Uptime: 00:00:40 
Expires: off 
Last reporter: 0.0.0.0 
Last-member-query-counter: 0 
Last-member-query-timer-expiry: off 
Group mode: include 
Version1-host-present-timer-expiry: off 
Version2-host-present-timer-expiry: off 
Source list: 
Source: 56.1.1.100 
Uptime: 00:;00:40 
Expires: 00:01:31 
Last-member-query-counter: 0 
Last-member-query-timer-expiry: off 


其 他 机 制 和 IGMPv2 一 致 。 

7.2.3.4 离开 机 制 

同 IGMPv2 不 同 的 是 ， 在 IGMPv2 中 添加 的 Leave-Group 离开 组 报 文 在 IGMPv3 中 
不 再 使 用 , 所 以 在 IGMPv3 中 主机 离开 组 或 不 希望 再 收 到 来 自 特定 源 的 组 播 流 ,IGMPv3 
主机 会 发 送 带 有 特定 含义 组 记录 的 成 员 报告 来 表达 。 

例 : 主机 当前 状态 为 (G，IS_INCLUDE，(S1，S2))， 请 参考 表 7-3。 
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如 果 不 希望 收 到 组 播 组 G 的 任意 流量 , 当前 主机 发 送 (G, BLOCK _ OLD SOURCE， 
S11, BS2% 
如 果 不 希 望 收 到 组 播 组 G 的 S1 的 流量 ， 当 前 主机 发 送 (G，BLOCK OLD _ SOURCE， 
S19 
当 查 询 者 接收 到 改变 组 播 组 与 源 列表 的 对 应 关系 的 报告 (G，BLOCK_OLD_ 
SOURCE，SOURCE) 时 ， 发送 特 定 源 组 查询 报 文 ,查询 特定 组 及 源 的 成 员 是 否 还 存在 。 
如 果 组 成 员 存 在 且 希 望 接收 其 中 任意 一 个 源 的 组 播 数 据 ， 则 将 响应 成 员 报告 报 文 。 路 由 
器 根据 响应 的 组 成 员 报告 更 新 该 组 对 应 的 源 列 表 。 如 果 没 有 接收 者 响应 ， 则 在 查询 两 次 
后 ， 每 次 间隔 ls， 来 自 Sl 或 /和 S2 的 组 播 流 将 不 再 流下 来 。 
例 : 主机 当前 状态 (G，IS_ EXCLUDE，S1，S2)， 如 果 不 希 望 收 到 组 播 组 为 G 的 
任意 流量 : 
e 当前 主机 发 送 (G，TO_IN，NULL ); 
。 当 查 询 者 接收 到 离开 某 组 播 组 的 报告 (G，TO_IN，NULL) 时 ， 发 送 指定 组 查 
询 消息 ， 判 断 网 段 中 是 否 还 存在 该 组 成 员 ; 
。 ”如 果 当 前 网 段 中 没有 其 他 组 成 员 ， 修 改 接口 的 组 和 成 员 的 对 应 关系 ， 路 由 器 修 
改 PIM 路 由 ， 相 应 接口 被 从 相应 的 组 播 路 由 表 的 下 游 接口 中 减 除 ; 
e 如 果 当 前 网 络 仍 有 其 他 主机 是 该 组 的 成 员 ， 则 成 员 会 响应 (G, IS_INCLUDE, S1) 
离开 所 需 时 间 是 2xigmp lastmember-queryinterval， 同 IGMPv2 一 致 。 
7.2.3.5 IGMPv3 相 比 于 共 他 IGMP 版 本 的 不 同 
IGMPv3 相 比 于 其 他 IGMP 主要 的 改动 就 是 对 主机 源 的 过 滤 功 能 ， 其 他 功能 如 下 。 
。 路 由 器 维护 的 状态 包含 组 和 源 地 址 ， 而 非 仅 像 IGMPv2 那样 仅 含 组 地 址 。 
IGMPv3 中 接口 状态 可 表示 为 〈《G， 过 滤 模 式 ， 源 列表 ) 。 
。 ”查询 者 发 送 的 查询 报 文中 含有 健壮 系数 和 查询 间隔 ， 查 询 者 可 用 其 同步 其 他 非 
查询 者 路 由 器 。 
。 ”主机 报告 目标 IP 地 址 为 224.0.0.22， 以 方便 两 层 交 换 机 Snooping。 
。 在 vl 和 v2 中， 主机 如 果 听 到 其 他 主机 回复 成 员 报告 ， 则 抑制 自己 的 报告 。 在 
IGMPv3 中 ， 这 种 抑制 主机 报告 的 功能 被 移 除了 。 原 因 如 下 : 在 局 域 网 络 ， 因 
为 IGMP Snooping 的 机 制 存 在 原因 ， 无 法 使 用 成 员 抑 制 功 能 。 消 除 报告 抑制 功 
能 之 后 ， 主 机 需要 处 理 更 少 的 消息 ， 这 使 状态 的 实现 更 简单 。 
e。 在 IGMPv3 中 ， 一 份 成 员 报告 含 多 个 组 记录 ， 相 比较 其 他 版 本 的 成 员 报告 ， 每 
个 报告 报 文 包含 一 个 组 地 址 ，IGMPv3 可 以 明显 减少 发 包 的 数量 。 
7.2.4 IGMP Proxy 
IGMP Proxy 是 一 类 特殊 的 IGMP 设备 ， 它 能 同时 执行 客户 主机 (接收 者 ) 和 查询 者 
的 功能 ， 它 面向 PC 主机 (接收 者 ) 表现 为 IGMP 查询 者 ， 而 如 果 面 对 路 由 器 ， 它 必须 
表现 为 IGMP 接收 者 的 角色 ， 它 靠 分 析 下 游 用 户 和 上 游 路 由 器 间 的 IGMP 报 文 来 建立 组 


播 路 由 表 。 
IGMP Proxy 设备 收 到 某 组 播 组 成 员 的 报告 报 文 后 ， 会 在 其 组 播 转发 表 中 查找 该 组 
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PC1 PC2 
图 7-15 IGMP Proxy 示意 图 


如 果 没 有 找到 相应 的 组 播 组 , IGMP Proxy 设备 会 向 上 游 路 由 器 发 送 针对 该 组 播 组 的 
报告 报 文 ， 并 在 组 播 转发 表 中 添加 该 组 播 组 ; 如 果 找 到 相应 的 组 播 组 ，IGMP Proxy 设备 
就 不 需要 问 上 游 设 备 发 送 报告 报 文 。 

IGMP Proxy 设备 如 果 收 到 某 组 播 组 G 的 成 员 发 送 离 开 报 文 后 ，Proxy 会 向 接收 到 
该 离开 报 文 的 接口 发 送 一 个 特定 组 查询 报 文 ， 检 查 该 接口 下 是 否 还 存在 组 播 组 G 的 其 
他 成 员 。 

。 如 果 没 有 其 他 成 员 ，IGMP 代理 设备 会 向 上 游 设 备 发 送 针 对 该 组 播 组 的 离开 报 

文 ， 并 在 组 播 转 发 表 中 将 对 应 的 接口 删除 。 

。 ”如 果 有 其 他 成 员 ，IGMP 代理 设备 会 继续 向 该 接口 转发 组 播 数 据 。 

如 果 IGMP Proxy 设备 在 上 游 接口 收 到 查询 报 文 ， 会 
根据 当前 组 播 转发 表 的 状态 对 查询 报 文 做 出 响应 。 

路 由 器 行为 是 指 IGMP Proxy 设备 的 下 游 接口 通过 成 
员 主 机 加 入 或 离开 组 播 组 的 信息 生成 组 播 转发 表 项 ， 接 收 
上 游 设 备 下 发 的 组 播 数据 并 根据 组 播 转发 表 项 的 出 接口 
信息 向 特定 的 接口 转发 组 播 数据 。 路 由 器 行为 的 工作 机 制 
与 IGMP 的 工作 机 制 一 致 。 

可 使 用 display igmp proxy routing-table 来 查看 组 播 路 
由 表 。 

示例 : 组 播 源 在 PIM 路 由 域 中 , RI 和 R2 间 使 用 G0/0/0 ooo| jowwp evn 
互 连 ， 目 前 企业 要 在 网 络 中 部 署 组 播 应 用 ， 使 接收 者 能 收 :1 
到 229.1.2.3 的 组 播 数据 。 但 R2 路 由 器 上 不 开启 PIM， 要 
求 使 用 IGMP 解决 方案 来 实现 。 

R1 是 PIM 路 由 器 ，G0/0/0 接口 开启 PIM 及 IGMP。 ; 
R2 G0/0/0 接口 开启 IGMP Proxy 功能 ，R2 可 根据 从 下 游 接 。 “图 7-16 IGMP Proxy 应 用 
口 收 到 的 IGMP 组 播 组 报告 生成 组 播 路 由 表 ，R2 同样 可 转发 收 到 的 组 播 数 据 。 接 收 者 有 







PIM 路 由 域 


GO/0/0| < 一 一 IGMP proxy 


Receiver 
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IGMPv2 接收 者 (加 入 229.1.2.3) 和 IGMPv3 接收 者 (只 接收 源 是 10.10.10.10、 组 播 组 


是 232.1.2.3 的 组 播 数据 )。 如 图 7-16 所 示 。 
# 解 决 办 法 : R2 作为 Proxy 转发 组 播 数据 。 
#R1 
[R1]int g0/0/0 
[R1-GigabitEthernet0/0/0]pim sm 
[R1-GigabitEthernet0/0/0Jigmp enable 
[R1-GigabitEthernet0/0/0]q 
[R1] , 
需 R2 上 充当 host 的 接口 (G0/0/0) 开启 IGMP Proxy; 面向 接收 者 接口 (G0/0/1) 则 正常 开启 IGMP。 
[R2]Jint g0/0/0 
[R2-GigabitEthernet0/0/0Jigmp proxy 
[R2-GigabitEthernet0/0/0]q 
[R2]int g0/0/1 
[R2-GigabitEthemet0/0/1]igmp enable 
[R2-GigabitEthernet0/0/1]igmp version 3 (可 选 ) 
[R2-GigabitEthernet0/0/1]q 
[R2] 
# 接 收 者 发 送 IGMP report (*,229.1.2.3) 
[R2]display igmp proxy routing-table 
Routing table of VPN-Instance: public net 

Total 2 (*, G) entries; 1 (S, G) entry 


(*, 229.1.2.3) 
Flag: WC, UpTime: 00:15:15 
Upstream interface: GigabitEthernet0/0/0 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/1 
~ Protocol: igmp, UpTime: 00:15:15 


(10.10.10.10, 232.2.2.2) 
Flag: JOIN, UpTime: 00:00:29 
Upstream interface: GigabitEthernet0/0/0 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/1 
Protocol: igmp, UpTime: 00:00:29 
#G0/0/0 是 Proxy 开启 的 接口 ， 也 是 组 播 数 据 的 入 口 。 
#G0/0/1 是 数据 转发 接口 。 


说 明 : 

1) 路 由 器 可 以 根据 PIN 路 由 表 和 IGMP 路 由 表 转 发 组 播 数据 。 

2) IGMP Proxy 虽 没 有 PIN 组 播 路 由 表 , 但 根据 Proxy 路 由 表 依 然 能 把 Proxy 接口 收 到 的 
组 播 数 据 报 文 转发 复制 到 下 游 接 口 。 如 果 主 机 在 多 个 接口 存在 接收 者 ，Proxy 必须 复制 流 
量 到 所 有 接口 ， 最 终 ， 组 播 数据 经 过 Proxy 设备 送 至 接收 者 。 


7.2.5 IGMP 路 由 表 


7.2.5.1 IGMP 组 和 路 由 表 
路 由 器 接口 下 会 记录 网 段 上 用 户主 机 所 加 入 的 组 播 组 ， 当 路 由 器 收 到 IGMP 组 加 入 
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报 文 后 ， 接 口 维护 IGMP 组 加 入 信息 并 通知 组 播 路 由 协议 创建 相应 (*,G) 表 项 。 只 要 设 
备 接口 使 能 了 IGMP 并 收 到 组 加 入 报 文 就 会 为 每 个 接口 维护 一 个 组 加 入 信息 表 项 ， 组 表 
项 形式 如 下 所 示 : 
<Huawei>display igmp group 
Interface group report information of VPN-Instance: public net 
GigabitEthernet1/0/0(10.1.6.2): 
Total 1 IGMP Group reported 
Group Address LastReporter Uptime Expires 
229.1.2.3 10.1.6.10 00:02:04 00:01:17 


任何 组 播 路 由 协议 都 会 有 组 播 协议 路 由 表 ，IGMP 路 由 表 是 由 IGMP 协议 维护 的 ， 
但 它 只 有 在 接口 没有 使 能 PIM 协议 时 才 会 存在 , 它 的 作用 主要 是 用 来 在 组 播 路 由 协议 无 
法 工作 的 接口 上 ， 使 用 IGMP 扩展 组 播 路 由 表 的 出 接口 。 组 播 数据 可 以 根据 IGMP 路 由 
表 向 非 PIM 接口 转发 。 以 下 是 组 播 路 由 表示 例 : 
<Huawei>display igmp routing-table 
Routing table of VPN-Instance: public net 
Total 1 entries 
00001. (*, 229.1.2.3) 
List of 1 downstream interface 


GigabitEthernet1/0/0 (10.1.6.2), 
Protocol: IGMP 


说 明 : 

当 接 收 者 所 在 的 接口 没有 PIN 时 ， 组 播报 文 的 转发 行为 依据 IGMP 路 由 表 而 定 。 但 如 
果 接 口 PIN 协议 启用 ， 组 播报 文 是 否 转 发 到 当前 接口 ， 则 参考 PIN 协议 路 由 表 ， 即 PIN 协 
议 路 由 表 优 先 于 IGMP 协议 路 由 表 。 

另外 , 仅 当 路 由 器 是 IGMP Querier 时 ， 才 有 IGMP 路 由 表 ， 并 执行 IGMP 路 由 转发 。 


7.2.5.2 场景 : IGMP 路 由 表 

场景 描述 : 

场景 如 图 7-17 所 示 ，R4 G0/0/0 接口 上 没有 开启 PIM。 而 R3 接口 上 PIM 开启 ，R3 
和 R4 的 G0/0/0 接口 都 开启 IGMP。 

要 求 : 当 组 播 源 开始 活跃 时 ， 分 析 组 播报 文 的 传递 过 程 及 分 析 display igmp 
routing-table 与 pim routing table。 图 中 ，R4 是 IGMP 查询 者 。 

[R4]display igmp routing-table 


Routing table of VPN-Instance: public net 
Total 1 entry 


00001. (*, 229.1.2.3) 
List of 1 downstream interface 
GigabitEthernet0/0/0 (10.1.34.1)， 
Protocol: IGMP 

# 
[R4]display multicast routing-table 
Multicast routing table of VPN-Instance: public net 

Total 1 entry 


00001. (10.1.10.1, 229.1.2.3) 
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Uptime: 00:00:14 
Upstream Interface: GigabitEthernetO/0/1 


List of 1 downstream interface 
1l: GigabitEthernet0/0/0 







Source: 10.1.10.1 


PIM is enabled i 


PIM is not enabled 
IGMPv2 is enabled 


IGMPv2 is enabled 


图 7-17 IGMP 应 用 


[R3]display multicast routing-table 
Maulticast routing table of VPN-Instance: public net 
Total 1 entry 


00001. (10.1.10.1, 229.1.2.3) 
Uptime: 00:00:28 
Upstream Interface: GigabitEthernetO/0/1 
List of 1 downstream interface 
1: GigabitEthernet0/0/0 
# 
[R3]display pim routing-table 
VPN-Instance: public net 
Total 1 (*, G) entry; 1 (S, G) entry 


( 2290.12 
Protocol: pim-dm, Flag: WC 
UpTime: 00:10:17 
Upstream interface: NULL 
Upstream neighbor: NULL 
RPF prime neighbor: NULL 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthemet0/0/0 
Protocol: igmp, UpTime: 00:10:17, Expires: never 


(10,1.10.1, 229.1.2.3) 


Protocol: pim-dm, Flag: 
UpTime: 00:04:36 
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Upstream interface: GigabitEthernetO/O/1 
Upstream neighbor: 10.1.23.2 
RPF prime neighbor: 10.1.23.2 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/0 
Protocol: pim-dm, UpTime: 00:04:36, Expires: never 
当 组 播 流 流 到 R3 和 R4 间 的 MA 网 段 后 ， 由 于 R4 是 查询 者 ， 未 开启 PIM， 因 此 可 
以 根据 IGMP 路 由 表 执 行路 由 。 而 R3 是 PIM 路 由 器 ， 有 PIM 路 由 表 。R3 和 R4 根据 
PIM 和 IGMP 路 由 表 分 别 转发 组 播 数据 ， 所 以 会 发 生 PC 会 收 到 多 份 数据 的 情况 。 解 决 
办 法 1: R3 和 R4 同时 都 开启 PIM dm 和 IGMP, 这 时 根据 PIM 路 由 组 播报 文 ,并 由 Assert 
Winner 负 责 转发 组 播 数据 .解决 方法 2;R3 和 R4 在 G0/0/0 接 口 不 开启 PIM, 仅 开启 IGMP， 
则 仅 IGMP 查询 者 负责 转发 数据 。 


7.3 IGMP Snooping 


7.3.1 IGMP Snooping 原理 描述 


IGMP Snooping (Internet Group Management Protocol Snooping) 是 IPv4 环境 下 ， 在 
二 层 交 换 机 上 提供 的 一 种 组 播 机 制 。 通 过 侦 听 组 播 路 由 器 和 用 户主 机 之 间 发 送 的 IGMP 
协议 报 文 ， 在 交换 机 上 创建 二 层 组 播 转发 表 〈 组 播 组 和 该 组 播 接收 者 的 端口 对 应 关系 )， 
当 交 换 机 转发 组 播报 文 时 ， 报 文 按照 交换 机 组 播 转发 表 转发 。 如 果 没 有 对 应 的 组 播 转发 
表 项 ， 则 泛 洪 到 所 有 端口 。 和 否则 ， 仅 泛 洪 到 有 接收 者 的 端口 上 去 。 





图 7-18 中 ， 交 换 机 端口 1、2、4 下 接 有 组 播 组 229.1.2.3 的 成 员 ， 交 换 机 从 组 播 路 
由 器 R1 或 R2 收 到 组 播 数据 报 文 ， 把 报 文 转发 到 Rl R2 
端口 1、 端口 2 及 端口 4， 并 没有 泛 洪 到 所 有 的 交 了 
换 机 端口 上 去 ， 这 样 做 可 降低 非 组 播 成 员 主 机 收 
到 组 播 流量 对 其 影响 。 上 一 

路 由 协议 ， 如 OSPF、PIM 等 ， 使 用 组 播 地 址 ee 
224.0.0.X， 支 持 IGMP Snooping 交换 机 不 会 为 此 | 性 一 了 TT PP | 
类 组 播 地 址 生成 组 播 转发 表 ， 因 为 没有 IGMP 成 
员 报 告 报 文 为 这 些 Link-local 组 应 用 服务 , 所 以 路 本 -i 
由 协议 OSPF、PIM 等 组 播报 文 会 被 交换 机 泛 洪 到 PCI ~ BG PE3 FC4 
所 有 的 端口 上 。 图 7-18 Snooping 交换 机 组 播 交 换 表 

IGMP Snooping 功能 分 成 控制 平面 和 数据 平面 两 部 分 。 控 制 平面 部 分 由 CPU 根据 
IGMP 报 文 建立 组 播 转发 表 。 而 数据 平面 部 分 则 由 转发 引擎 根据 已 建立 的 组 播 转发 表 转 
发 组 播报 文 。 

交换 机 上 组 播 转发 表 由 路 由 器 端口 和 连接 主机 的 端口 构成 ， 形 式 如 下 : 

<Switch> display 12-multicast forwarding-table vlan 10 

VLAN ID : 10, Forwarding Mode : IP 
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(Source, Group) Interface Out-Vlan 
Router-port GigabitEthernet0/0/11 10 
(S229.1.2.3) GigabitEthernet0/0/1 10 
GigabitEthernet0/0/2 10 
GigabitEthernet0/0/3 10 
GigabitEthernet0/0/11— 10 
(# 228.1.2.3) GigabitEthernet0/0/1 10 
GigabitEthernet0/0/2 10 
GigabitEthernet0/0/3 10 
GigabitEthernet0/0/11 10 
(*,225.1.1.3) GigabitEthernet0/0/1 10 
GigabitEthernet0/0/3 10 
GigabitEthemetO/0/11 10 

Total Group(s) : 3 


其 中 ， 路 由 器 端口 (Router Port) 是 交换 机 连接 组 播 路 由 器 的 端口 ， 它 会 出 现在 所 
有 组 播 组 中 ， 如 图 7-18 中 的 端口 11 和 12。 交 换 机 在 此 端口 上 侦 听 到 “IGMP 查询 ” 报 
文 或 PIM 协议 报 文 ， 则 认定 此 端口 上 连接 组 播 路 由 器 。 这 样 的 方式 出 现 的 端口 为 动态 端 
口 。 而 手工 添加 的 端口 为 静态 的 路 由 器 端口 ， 静 态 添 加 的 端口 会 一 直 出 现在 列表 中 。 

如 果 交 换 机 是 仅 Layer2 识别 功能 的 交换 机 , 转发 引擎 识别 出 组 播 MAC 地 址 01005E 
后 ， 一 律 转发 给 CPU， 由 CPU 进一步 分 析 判 断 是 否 是 IGMP 报 文 ， 是 则 处 理 ， 不 是 则 
丢弃 ， 所 以 会 加 重 CPU 的 负荷 。 现 在 的 交换 机 均 是 有 Layer3 IGMP 识别 能 力 的 交换 机 ， 
转发 引擎 识别 出 组 播 MAC 后 ， 进 一 步 识 别 Layer3 协议 号 (ProtocolID=2) 为 IGMP， 则 
转发 给 接 在 端口 0 的 CPU; 和 否则 转发 给 其 他 端口 。 这 样 CPU 仅 处 理 IGMP 报 文 ， 开 销 
小 ， 负 担 轻 。 这 也 是 IGMP Snooping 可 以 普遍 使 用 的 一 个 原因 。 

交换 机 的 端口 会 侦 听 组 播 路 由 器 发 出 的 周期 性 IGMP 报告 和 PIM Hello 报 文 ， 收 到 
相应 报 文 后 ， 刷 新 交换 机 组 播 转 发 表 中 的 路 由 器 端口 的 计时 器 。 

成 员 端 口 是 交 换 机 连接 组 播 成 员 的 端口 ， 如 图 7-18 中 端口 1、2 和 4 号 端口 ， 这 些 
端口 后 面 的 主机 要 周期 发 送 IGMP 成 员 报 告 报 文 来 刷新 组 播 转发 表 中 成 员 端 口 的 计时 
器 。 靠 侦 听 IGMP 成 员 报 告 报 文 而 添加 进来 的 接口 为 动态 成 员 端 口 ， 而 手工 添加 的 成 员 
端口 叫做 静态 成 员 端口 。 

不 论 是 接 主 机 的 成 员 端 口 还 是 接 组 播 路 由 器 的 端口 ， 只 要 是 动态 的 端口 ， 如 果 端 口 
上 维持 “动态 ”特性 的 协议 报 文 PIM 或 IGMP) 未 收 到 ， 超 时 时 间 后 ， 端 口 会 从 组 播 
转发 表 中 消失 。 交 换 机 上 成 员 端口 的 超时 时 间 是 130s， 路 由 器 端口 的 超时 时 间 是 105s 
或 180s。( 时 间 依 据 学 到 路 由 器 端口 是 靠 PIM Hello 报 文 还 是 IGMP 报 文 而 定 ) 

例 ， 在 交换 机 上 开启 VLAN1 的 IGMP Snooping 功能 ， 配 置 如 下 : 


# 

multicast routing-enable 
# 

igmp-snooping enable 
# 


vlan 1 
igmp-snooping enable 
# 


以 下 输出 中 ， 显 示 交 换 机 收 到 PIM Hello 报 文 后 ， 更 新 路 由 端口 的 Timer。 


15:29:52.930.3-08:00 SW1 SNPG/WEVENT: SNPG ProcessL2EventPacket,ulL2EvtQueNum:1 (L2MC INIT841) 
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15:29:52.930.4-08:00 SW1 SNPG/T/EVENT: IGMP snooping get port status to get port link status,IfIndex:6, Status 0 

15:29:52.930.5-08:00 SW1 SNPG/7/PACKET:Received Packet (protocol = 103) from 10.1.12.1 to 224.0.0.13, type 0x20 on 
(VLAN 1 GigabitEthernet0/0/1 ) 

15:29:52.930.6-08:00 SW1 SNPG/7/QUERY:Received pim hello packet. 

15:29:52.930.7-08:00 SW1 SNPG/7/TIMER:Update router port timer successfully(105s).Port (VLAN 1 GigabitEthernet0/ 
0/1). 


# 
<SW1>display igmp-snooping router-port vlan 1 
Port Name UpTime Expires Flags 


VLAN 1, 2 router-port(s) 

GEO/0/1 02:52:30 00:01:44 DYNAMIC 

GE0/0/2 02:52:45 00:01:30 DYNAMIC 

1. 主机 成 员 报 告 

图 7-19 中 ，R1 是 查询 者 ，R2 是 非 查 询 者 ，PC3 是 非 组 播 组 接收 者 。 





Join 机 制 IGMP Querier 






CPU 


着 


一 Join 


PC3 
( 非 接收 者 ) 
图 7-19 IGMP Snooping 对 主机 加 入 报 文 处 理 机 制 


如 果 主 机 1 (PC1) 是 初次 加 入 组 播 组 ， 立 即 产 生 IGMP 组 报告 报 文 ， 目标 组 地 址 为 
229.1.2.3， 如 果 是 IGMPv3， 则 目标 组 地 址 为 224.0.0.22。 当 交换 机 在 主机 所 属 VLAN 内 
侦 听 到 报告 报 文 ， 从 中 了 解 到 组 地 址 229.1.2.3 后 : 
。 ”如 果 不 存 在 229.1.2.3 组 对 应 的 转发 表 项 ， 则 创建 转发 表 项 ， 并 把 该 接口 作为 动 
态 成 员 端口 添加 到 L2-Multicast Forwarding-Table 出 接口 列表 中 ,并 启动 老化 定 
时 器 ， 时 长 130s; 

。 如 果 已 存在 229.1.2.3 组 所 对 应 的 转发 表 项 ， 但 出 接口 列表 中 未 包含 收 到 报 
文 的 接口 ， 则 将 该 接口 作为 动态 成 员 端 口 添加 到 出 接口 列表 ， 并 启动 老化 定 


时 器; 
。 ”如 果 已 存在 该 组 所 对 应 的 转发 表 项 ， 且 出 接口 列表 中 已 包含 该 动态 成 员 端 口 ， 
则 重 置 其 老化 定时 器 。 


如 果 主 机 已 加 入 组 播 组 ， 在 组 成 员 主机 收 到 IGMP 普遍 组 查询 报 文 后 ， 应 在 指定 时 
间 内 回应 IGMP 报告 报 文 。 交 换 机 上 处 理 的 逻辑 同 初次 收 到 加 入 报 文 的 逻辑 一 样 。 
当 交 换 机 收 到 主机 的 IGMP 报告 报 文 后 , 转发 给 CPU 和 出 现在 交换 机 转发 表 中 的 路 
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由 器 端口 ,CPU 根据 上 面 的 逻辑 /规则 创建 或 刷新 表 项 的 相应 接口 。 交 换 机 在 接收 者 所 在 
主机 端口 收 到 IGMP 报告 报 文 ， 该 报 文 不 会 被 交换 机 转发 到 其 他 接收 者 主机 端口 上 。 
IGMP Snooping 交换 机 在 主机 端口 间 互 相 不 转发 成 员 报告 报 文 ， 主 机 之 间 IGMP 报 文 隔 
离 ， 所 以 当 收 到 查询 后 ， 任 何 组 成 员 主机 都 分 别 尽力 响应 报告 。 图 7-19 中 ， 主 机 1、 主 
机 2 和 主机 4 会 每 隔 60s 收 到 普遍 组 查询 而 响应 成 员 报告 报 文 ， 交 换 机 据 此 可 周期 刷新 
交换 机 上 的 L2-multicast 转发 表 ， 防 止 动态 主机 端口 超时 消失 。 

2. 普遍 组 查询 的 处 理 

图 7-20 中 ，R1 是 IGMP 查询 者 ，R2 是 非 查 询 者 ，R2 周期 60s 会 听 到 RI1 的 普遍 组 
查询 。 


Join 


-一 一 一 一 
GeneralQuery 





EU PC2 PC3 pC4 
图 7-20 交换 机 对 普遍 组 查询 报告 的 处 理 


查询 者 R1 周期 性 向 本 地 网 段 内 发 目的 地 址 为 224.0.0.1 的 普遍 组 查询 报 文 ， 源 地 址 
是 查询 者 R1 接口 PP 地址， 查询 的 内 容 是 组 地 址 0.0.0.0， 交 换 机 把 IGMP 普遍 组 查询 报 
文 向 除 接收 端口 11 外 的 其 他 所 有 端口 转发 。 如 果 当 前 两 层 组 播 转发 表 中 已 经 有 11 号 端 
口 ， 则 重 置 老化 计时 器 〈180s) ， 和 否则 把 11 号 端口 加 入 到 组 播 转发 表 里 。 

泛 洪 出 来 的 普遍 组 查询 报 文 被 所 有 主机 收 到 ， 但 仅 主机 1、 主 机 2 和 主机 4 是 组 
229.1.2.3 的 成 员 。 当 收 到 查询 后 ， 主 机 1、 主 机 2、 主 机 4 在 MRT (最 大 响应 时 间 〉 内 
随机 选择 时 间 ， 主 机 1、 主 机 2 和 主机 4 各自 的 响应 IGMP 报 文 刷 新 组 播 转 发 表 中 相应 
端口 的 计时 器 。 

IGMPv2 中 的 特定 组 查询 和 IGMPv3 中 特定 组 源 的 查询 报 文具 向 组 播 表 中 已 有 的 成 
员 端 口 转发 。 例 如 当前 端口 1、 端口 2 和 端口 4 是 组 229.1.2.3 的 成 员 端口 ， 端 口 3 没有 
收 到 过 IGMP 成 员 报告 报 文 。 所 以 对 组 播 组 229.1.2.3 的 特定 组 查询 报 文 是 不 会 被 交换 机 
转发 到 端口 3 的 。 

3. 成 员 离 开 组 播 组 

在 IGMPv2 中 添加 了 离开 机 制 。 图 7-21 中 ， 交 换 机 的 组 播 转发 表 中 含有 动态 主机 端 
口 1、 端 口 2 和 端口 4， 当主 机 1 发 送 了 离 组 报 文 ， 目 标 组 地 址 为 224.0.0.2， 交 换 机 收 到 
后 ， 仅 转发 给 CPU 和 转发 表 中 的 路 由 器 端口 11 和 12。 

交换 机 CPU 收 到 离开 组 报 文 后 ,从 中 了 解 离开 的 组 地 址 , 判断 离开 的 组 是 否 存 在 对 
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一 一 LeaveGroup 


一 一 Group-Specific Query 





图 7-21 IGMP Snooping 离 组 报 文 处 理 机 制 


。 ”如 果 不 存在 该 组 对 应 的 转发 表 项 ， 或 者 该 组 对 应 转发 表 项 的 出 端口 列表 中 不 包 
含 接收 接口 ， 二 层 组 播 设 备 不 转发 该 报 文 ， 将 其 直接 丢弃 。 
e ”如 果 存 在 该 组 对 应 的 转发 表 项 ， 且 转发 表 项 的 出 接口 列表 中 包含 该 端口 ， 二 层 
组 播 设备 会 将 报 文 向 VLAN 内 所 有 路 由 器 端口 转发 。 
查询 者 R1 收 到 主机 的 查询 报 文 后 ， 判 断 是 否 229.1.2.3 还 有 成 员 存 在 。 所 以 R1 立 
即 发 送 特定 组 或 特定 组 源 的 查询 。 交 换 机 把 收 到 的 查询 仅 转发 给 CPU 和 端口 1、 端口 2 
和 端口 4。 以 端口 1 为 例 : 
e ”如 果 从 端口 1 下 ,， 收 到 主机 响应 IGMP 特定 组 /组 源 查询 的 报告 报 文 ， 表 示 接 口 
下 还 有 该 组 的 成 员 ， 于 是 重 置 其 老化 定时 器 ; 
e ”如 果 没 有 从 该 端口 收 到 主机 响应 IGMP 特定 组 / 源 组 查询 的 报告 报 文 , 则 表示 接 
口 下 已 没有 该 组 成 员 ， 则 在 2s 后 , 将 端口 1 从 该 组 的 组 播 转发 表 项 出 接口 列表 
中 删除 。 但 如 果 该 端口 是 两 层 组 播 转 发 表 项 中 的 最 后 一 个 端口 ， 则 当 所 有 端口 
都 没有 时 ， 该 组 播 组 的 表 项 将 被 删除 。 


说 明 : 

当 交 换 机 收 到 IGMP 离开 报 文 后 ， 接 收 端 口 的 老化 定时 器 时 间 超 时 时 间 由 130s 立即 改 
为 sz， 超时 时 间 = 健壮 系数 x 特定 组 查询 间隔 。 这 和 路 由 器 收 到 离 组 报 文 后 相应 组 的 超 
时 时 间 变 为 2s 是 一 样 的 。 


7.3.2 IGMP Snooping Proxy 


配置 IGMP Snooping 功能 后 ， 交 换 机 对 上 游 IGMP 查询 者 的 Query 报 文 和 下 游 主机 
的 Report 和 Leave 报 文 都 不 修改 地 转发 。 当 网 络 中 存在 大 量 用 户主 机 时 ， 过 量 的 IGMP 
报 文 给 上 游 设备 带 来 处 理 压 力 。 配 置 IGMP Snooping Proxy 功能 后 ， 交 换 机 可 以 代替 组 
播 路 由 器 向 下 游 发 送 IGMP Query 报 文 给 接收 者 主机 ， 也 可 以 代替 大 量 下 游 接 收 者 主机 
向 上 游 路 由 器 发 送 IGMP Report 和 IGMP Leave 报 文 ， 有 效 节约 上 游 三 层 设 备 和 本 设备 
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之 间 的 带宽 。 

配置 了 代理 功能 的 设备 : 

1. 只 有 在 组 播 组 开始 有 成 员 加 入 且 需 要 建立 组 播 表 项 或 者 响应 IGMP 查询 报 文 时 
向 上 游 发 送 Report 报 文 ; 


2. 在 组 播 组 最 后 成 员 都 已 经 离开 ， 组 播 组 表 项 没有 成 员 端 口 后 ， 向 上 游 发 送 Leave 
报 文 。 

当 三 层 设备 没有 启用 IGMP 时 , 例如 只 配置 了 静态 组 播 组 , 不 会 有 查询 者 发 送 Query 
报 文 ， 这 样 即使 设备 使 能 了 IGMP Snooping 功能 ， 也 无 法 建立 和 维护 组 成 员 关 系 。 通 过 
IGMP Snooping Proxy 功能 ， 可 以 使 交换 机 发 送 Query 报 文 ， 相 对 下 游 主机 而 言 ， 就 是 一 
台 查 询 者 。 

例 ， 在 交换 机 S1 上 为 VLAN100 开启 IGMP Snooping Proxy 功能 ， 配 置 如 下 : 

<S1> system-view 

[S1] igmp-snooping enable 

[S1] vian 100 

[Si-vlan100] igmp-snooping enable 

[S1-vlan100] igmp-snooping proxy 

1.IGMP Snooping Proxy 中 加 入 机 制 


图 7-22 中 , 组 播 组 229.1.2.3 中 成 员 主机 1、 主 机 2 和 主机 4 希望 收 到 组 播 数据 报 文 。 
初始 时 ， 头 一 台 主 机 1 发 报告 报 文 ， 交 换 机 充当 Proxy， 面 向 用 户 作为 组 播 路 由 器 角色 ， 
所 以 收 到 报告 报 文 ， 规 则 如 下 。 





Join 机 制 IGMP Querier 







=—%,Join 


ns 


PC1 PC2 RE3 PC4 
7-22 ”Proxy 加 入 机 制 


。 若 不 存在 229.1.2.3 组 对 应 的 转发 表 项 ， 则 创建 转发 表 项 ， 将 接收 端口 1 作为 动 
态 成 员 端口 添加 到 出 接口 列表 中 ， 并 启动 老化 定时 器 ， 向 所 有 路 由 器 端口 发 送 
该 组 的 报告 报 文 ; 向 路 由 器 发 送 报告 报 文 时 , 交换 机 把 自己 表现 成 组 播 229.1.2.3 
的 “接收 者 ”。 

。 ” 若 已 存在 该 组 对 应 的 转发 表 项 ， 且 其 出 接口 列表 中 已 包 含 该 动态 成 员 端口 ， 则 
重 置 其 老化 定时 器 ， 交 换 机 不 会 产生 报告 报 文 给 查询 者 。 

。 若 已 存在 该 组 对 应 的 转发 表 项 ， 但 其 出 接口 列表 中 不 包含 该 接收 接口 ， 则 将 该 
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接口 作为 动态 成 员 端口 添加 到 出 接口 列表 中 ， 并 启动 其 老化 定时 器 ， 交 换 机 不 
会 产生 报告 报 文 给 查询 者 。 
交换 机 充当 “查询 者 ”时 ， 当 主机 成 员 的 报告 被 交换 机 收 到 后 ， 交 换 机 据 此 创建 或 
刷新 组 播 交 换 表 。 但 交换 机 也 同时 作为 “接收 者 ”出 现 。 
e。 ” 当 交 换 机 组 播 表 创建 了 组 229.1.2.3 后 ， 交 换 机 充当 “接收 者 ”发 送 报告 报 文 给 
路 由 器 。 

。 ” 当 路 由 器 的 普 裔 组 查询 报 文 被 交换 机 收 到 后 ， 如 果 交 换 机 当前 有 组 播 转发 表 ， 
则 回应 相应 组 的 报告 报 文 。 如 果 收 到 特定 组 或 组 源 的 查询 ， 如 果 当 前 交换 机 上 
有 该 特定 组 的 条 目 ， 则 回应 相应 的 组 播报 告 报 文 。 
2. IGMP Snooping Proxy 查询 
IGMP Snooping Proxy 下 的 查询 机 制 主要 包含 两 个 查询 , 一 个 是 查询 者 路 由 器 发 送 普 
遍 组 查询 报 文 ， 另 一 个 是 交换 机 充当 “路 由 器 ”发 送 查 询 报 文 。 
当 交 换 机 收 到 路 由 器 发 送 的 普遍 组 查询 报 文 时 : 
e ”IGMP 普遍 组 查询 报 文 ， 向 本 VLAN 内 除 接收 接口 以 外 的 所 有 接口 发 送 IGMP 
普遍 组 查询 报 文 ; 同时 根据 本 地 维护 的 组 成 员 关系 生成 报告 报 文 ， 向 所 有 路 由 
器 端口 发 送 。 

。 IGMP 特定 组 查询 报 文 {IGMP 特定 源 组 查询 报 文 ， 若 该 组 对 应 的 转发 表 项 中 还 
有 成 员 端 口 ， 则 向 所 有 路 由 器 端口 回复 该 组 的 报告 报 文 。 

图 7-23 中 ，R1 是 查询 者 ， 发 送 普 遍 组 查询 后 ， 查 询 报 文 被 交换 机 收 到 后 ， 交 换 机 
转发 该 查询 报 文 到 CPU 和 其 他 出 现 组 播 路 由 器 。CPU 收 到 后 ， 根 据 当前 已 建立 的 组 播 
转发 表 的 内 容 ， 如 果 229.1.2.3 组 播 表 下 游 接 口 非 空 ， 则 CPU 以 0.0.0.0 的 他 地 址 作为 源 
地 址 发 送 成 员 报 告 报 文 给 路 由 嚣 ， 路 由 器 只 要 知道 下 游 有 接收 者 就 可 以 转发 组 播 数据 ， 
不 关心 是 谁 发 的 报告 报 文 〈 即 不 关心 接收 者 是 谁 ， 及 有 几 个 接收 者 )。 





〈 非 接收 者 ) 
图 7-23 IGMP Snooping Proxy 查询 机 人 制 


交换 机 会 以 “查询 者 ”身份 周期 查询 相应 VLAN 中 所 有 端口 下 是 否 有 接收 者 ， 所 以 
普遍 组 查询 会 60s 间隔 发 送出 所 有 端口 ， 如 果 下 游 有 接收 者 ， 则 响应 报 文 会 回 送 给 被 交 
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换 机 收 到 刷新 或 创建 组 播 表 。 
3. Proxy 下 的 离开 机 制 
图 7-23 中 ， 若 交换 机 从 端口 11 收 到 主机 的 离开 报 文 ， 如 果 当 前 组 播 转发 表 里 有 端 
口 11， 则 交换 机 会 立即 向 端口 11 发 送 针对 该 组 的 特定 组 查询 报 文 ， 只 有 当 删 除 某 组 播 
组 对 应 转发 表 项 中 的 最 后 一 个 成 员 端 口 时 ， 才 会 向 所 有 路 由 器 端口 发 送 该 组 的 离开 报 文 。 


7.4 PIM 组 播 路 由 协议 基础 


7.4.1 协议 概述 


PIM (Protocol Independent Multicast) 称 为 协议 无 关 组 播 路 由 协议 。 这 里 的 协议 无 关 
指 的 是 与 单 播 路 由 协议 无 关 ，PIM 协议 本 身 并 不 像 MOSPF 和 DVMRP 协议 一 样 维护 组 
播 拓扑 数据 库 ， 所 以 它 不 能 自己 画 出 组 播 拓扑 ， 需 要 依赖 单 播 路 由 表 中 的 路 由 信息 ， 按 
RPF 机 制 来 生成 组 播 转 发 表 ， 并 转发 组 播报 文 。 

PIM 不 维护 庞大 的 拓扑 数据 库 ， 所 以 生成 组 播 路 由 不 需要 复杂 的 计算 过 程 ， 这 降低 
了 PIM 协议 的 复杂 性 及 系统 开销 。PIM 适用 于 各 种 复杂 的 拓扑 及 LAN/WAN 环境 , 能 依 
靠 单 播 路 由 表 的 变化 而 及 时 调整 组 播 拓 扑 , 这 使 得 PIM 协议 成 为 目前 使 用 最 广泛 的 组 播 
路 由 协议 。 

PIM 协议 根据 接收 者 的 分 布 数量 和 网 络 环境 ， 分 为 DM 和 SM 两 种 模式 。 

PIM DM 是 PIM 协议 中 使 用 密集 模式 生成 播 转 发 表 的 组 播 路 由 协议 ， 它 使 用 “ 推 
(Push)” 的 方式 转发 组 播报 文 及 生成 组 播 表 ， 多 应 用 于 组 播 组 成 员 数 量 相对 较 多 、 分 布 
相对 密集 的 局 域 网 络 环境 中 。 

PIM SM 多 用 在 接收 者 分 布 较为 分 散 、 地 域 较 大 的 环境 ， 可 适用 于 任何 环境 。 它 使 
用 PULL 模型 建 组 播 表 ， 组 播 流 仅 流 向 有 接收 者 的 位 置 。 


7.4.2 ”邻居 发 现 及 协商 


组 播报 文 仅 在 有 PIM 邻居 关系 的 路 由 器 之 间 传 递 。 

路 由 器 在 接口 启用 了 PIM 协议 后 ， 会 向 外 周期 发 送 PIM Hello 报 文 ， 报 文 的 目的 卫 
地 址 是 224.0.0.13， 源 地 址 为 发 送 接口 的 耳 地 址 ，TTL 数值 为 1。Hello 报 文 的 作用 是 发 
现 邻 居 、 协 商 参 数 并 维持 邻居 关系 。PIM Hello 报 文 的 发 送 间 隔 是 30s。Timer hello 全 局 
命令 或 PIM timer hello 接口 命令 可 以 配置 Hello 报 文 的 发 送 间隔 ， 接 口 下 的 命令 优 于 全 
局 命令 。 


7.4.3 ”PIM 邻居 协商 


PIM 邻居 在 建立 过 程 中 ， 会 通过 Hello 报 文 协商 Option 参数 。PIM 协议 支持 多 种 选 
项 参数 ， 参 考 表 7-4， 这 些 选 项 参数 用 来 通告 彼此 共同 支持 的 能 力 。 其 中 ， 除 了 Holdtime 
选项 参数 是 必须 包含 外 ， 其 他 都 是 可 选 的 。 如 果 收 到 不 识别 或 者 不 支持 的 选项 信息 则 忽 
略 ， 参 数 不 一 致 并 不 影响 邻居 关系 的 建立 。 
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表 7-4 PIMY2 hello 报 文部 分 选项 信息 

1 Hello Hold Time 

2 LAN Prune Delay 

19 DR Priority (PIM-SM Only) 
20 Generation ID 
21 State Refresh Capable (PIM-DM Only) 
22 Bidir Capable (Bidir-PIM Only) 
24 Address List (PIM-SM Only) 


田 Tnternet Protocol Version 4, Src: 23,1.1.2 (23,1.1.2), Dst: 224.0.0.13 (224.0.0.,13) 
日 protocol Independent Multicast 

0010 on: 

»».. 0000 = Type: Hello (0) 

Reserved byte(s): 00 

Checksum: Oxf959 [correct] 

日 PIM options: 5 

田 Option 1: Hold Time: 105s 

田 Option 19: DR Priority: 1 

田 Option 20: Generation ID: 3842176859 

田 Option 65004: Unknown: 65004 

田 Option 2: LAN Prune Delay: T = 0, Propagation Delay = S500ms, Override Interval = 2500ms 


图 7-24 ”PIM hello 报 文 


下 面 对 其 中 部 分 选项 逐一 进行 说 明 。 

7.4.3.1 Holdtime 选项 

用 来 表示 邻居 出 现在 邻居 表 中 的 最 长 保持 时 间 , 如 果 在 Holdtime 时 间 内 没有 收 到 邻 
居 发 来 的 Hello 报 文 ， 则 从 当前 邻居 表 中 删除 PIM 邻居 。Holdtime 时 间 默 认为 3.5 倍 的 
Hello 时 间 间 隔 。 

Hello-option holdtime 全 局 命令 或 Pim hello-option holdtime 接口 命令 用 于 修改 默认 的 
Holdtime 时 间 (接口 命令 优 于 全 局 命令 )。Holdtime 时 间 如 果 被 手工 设置 为 65535s， 则 
代表 邻居 关系 永 不 超时 ， 多 用 在 拨号 链 路 上 ， 可 防止 链 路 的 反复 中 断 而 影响 邻居 关系 。 
而 如 果 从 邻居 收 到 Hello 报 文 ， 其 中 Holdtime 值 为 0， 则 当前 设备 会 立即 从 PIM 邻居 
表 中 删除 该 邻居 ， 这 可 用 于 加 速 网 络 收敛 。 华 为 设备 不 能 使 用 命令 设置 Holdtime 时 间 
为 0, 但 车 在 接口 使 用 Undo pim 命令 后 , 会 触发 当前 设备 发 送 Holdtime 值 为 0 的 Hello 
报 文 。 

如 果 两 侧 的 邻居 Holdtime 时 间或 Hello 间隔 时 间 配 置 不 一 致 , 不 会 影响 PIM 邻居 关 
系 的 建立 。Hello 报 文 的 保持 时 间 应 该 大 于 Hello 报 文 的 发 送 间隔 。 

7.4.3.2 ”DR 优先 级 选项 

路 由 器 之 间 通 过 互相 发 送 携带 DR 优先 级 的 Hello 报 文 来 选举 DR， 在 任何 链 路 上 ， 
如 以 太 网 段 和 点 到 点 链 路 上 ， 都 选举 DR， 优 先 级 的 取 值 范围 从 1 到 255， 默 认 值 是 1。 
具有 最 高 优先 级 的 路 由 器 将 成 为 DR; 优先 级 相同 的 情况 下 ， 接 口 IP 地 址 大 的 设备 成 为 
DR。 使 用 Hello-option dr-priority 全 局 命令 或 Pim hello-option dr-priority 接口 命令 用 于 修 
改 默认 的 DR 优先 级 。 

在 PIM DM 中 ，DR 在 最 后 一 跳 以 太 网 段 上 ， 可 充当 IGMPv1 环境 下 的 IGMP 查询 
者 ， 除 此 以 外 ，DR 在 PIM DM 中 没有 实际 用 途 。DR 在 SM 中 ， 则 负责 向 RP 建 共 享 树 
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和 疝 RP 建 注册 通道 。 

7.4.3.3 LAN_Delay 选项 

此 选项 代表 在 共享 网 段 内 传输 PIM Prune 报 文 所 需 的 最 大 时 间 ， 又 叫 Prune 延迟 时 
间 ， 最 大 值 为 5S00ms。 当 同一 网 段 中 的 所 有 路 由 器 上 的 LAN_Delay 值 不 同时 ， 当 前 路 由 
器 将 根据 收 到 的 Hello 报 文 ， 从 中 选择 最 大 值 。 

Hello-option lan-delay 命令 用 来 配置 共享 网 段 上 传输 Prune 报 文 的 延迟 时 间 。 默 认 的 
延迟 时 间 是 500ms。 

7.4.3.4 Override-lnterval 选项 

此 选项 代表 Hello 报 文中 携带 的 用 于 发 送 和 否决 前 枝 的 Join 报 文 的 时 间 间 隔 。 当 同一 
网 段 中 有 路 由 器 向 上 游 发 送 前 枝 报 文 时 ， 如 果 同 网 段 的 其 他 路 由 器 仍然 需要 接收 组 播 数 
据 ， 则 其 必须 在 Override-interval 时 间 内 随机 选择 时 间 向 上 游 RPF 邻居 发 送 前 梳 和 否决 报 
文 〈 即 PIM Join 报 文 )。 若 该 网 段 有 多 台 路 由 器 ， 最 先 发 送 的 Join 否决 报 文 会 抑制 其 他 
路 由 器 的 Join 否决 行为 ， 可 避免 多 台 路 由 器 重复 发 送 和 否决 报 文 。 

Hello-option override-interval 全 局 命令 或 Pim hello-option override-interval 接口 命令 
用 来 配置 Hello 报 文中 携带 的 否决 剪 枝 的 时 间 间 隔 ， 默 认 时 间 间 隅 是 2500ms。 该 命令 对 
于 PIM-DM 和 PIM-SM 都 有 效 。 

当 同 一 网 段 中 的 所 有 路 由 器 上 的 Override-Interval 值 不 同时 , 彼此 将 通过 Hello 报 文 
进行 协商 并 从 中 选取 最 大 值 。 

默认 情况 下 , LAN-Delay+Override-Interval=3s, 这 3s 时 间 又 叫 作 PPT (Prune-Pending 
Timer) 剪 枝 等 待 时 间 。 路 由 器 下 游 接口 接收 到 剪 枝 报 文 后 ， 并 不 立即 执行 剪 枝 操 作 ， 而 
是 等 待 一 段 PPT 时 间 ， 超 时 后 则 执行 前 枝 操 作 。 

7.4.3.5 ”Generation ID ( GenIlD ) 选项 

此 选项 是 一 个 随机 生成 的 32 位 数 ， 可 用 来 跟踪 邻居 路 由 器 的 变化 。 每 台 路 由 器 发 
送 的 Hello 报 文中 都 带 有 自己 随机 生成 的 一 个 GenID。 如 果 当 前 路 由 器 重启 或 接口 重 局 
时 , GenID 会 重新 生成 , 下 游 路 由 器 发 现 GenID 改变 时 , 会 立即 向 该 路 由 器 发 送 PIM Join 
报 文 ， 以 重新 生成 (S,G) 或 (*,G) 状态 。 

7.4.3.6 选项 默认 值 

使 用 下 面 的 命令 可 看 到 PIM 邻居 默认 的 Hello 选项 值 。 

|，[R4]display pim neighbor verbose 


VPN-Instance: public net 
Total Number of Neighbors= 1 


Neighbor: 45.1.1.5 
Interface: Seriall/0/1 
Uptime: 00:01:38 
Expiry time: 00:01:36 

DR Priority: 1 

Generation ID: 0X2557DD78 

Holdtime: 105s 

Override interval: 2500 ms 

Neighbor tracking: Disabled 
PIM BFD-Session: N 
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<rl>display pim int S1/0/0 verbose 
VPN-Instance: public net 
Interface: Seriall/0/0, 10.1.12.1 
PIM version: 2 
PIM mode: Sparse 
PIM state: up 
PIM DR: 10.1.12.2 并 点 到 点 链 路 上 DR 选举 
PIM DR Priority (configured): 1 
PIM neighbor count: 1 
PIM hello interval: 30 s 
PIM LAN delay (negotiated): 500 ms # 先 取 链 路 上 的 最 大 值 
PIM LAN delay (configured): 500 ms 
PIM hello override interval (negotiated): 2500 ms # 选 取 链 路 上 的 最 大 值 
PIM hello override interval (configured): 2500 ms 
PIM Silent: disabled 
. PIM neighbor tracking (negotiated): disabled 
PIM neighbor tracking (configured): disabled 
PIM generation ID: OX660BE454# 
PIM require-GenID: disabled 
PIM hello hold interval: 105 s 
PIM assert hold interval: 180 s 
PIM triggered hello delay: 5s 
PIM J/P interval: 60 s 
PIM JP hold interval: 210 s 
PIM BSR domain border: disabled | 
PIM BFD: disabled 
PIM dr-switch-delay timer: not configured 
Number of routers on link not using DR priority: 0 
Number of routers on link not using LAN delay: 0 
Number of routers on link not using neighbor tracking: 2 
ACL of PIM neighbor policy: - 
ACL of PIM ASM join policy: = 
ACL of PIM SSM join policy: - 
ACL of PIM join policy: - 


7.4.4 ”PIM 报 文 种 类 及 格式 


PIM 协议 报 文 在 DM 和 SM 下 各 有 不 同 。 具 体 报 文 类 型 见 表 7-5 所 示 。 
表 7-5 PIMv2 报 文 类 型 
类 型 ID 二 
0 Hello 
仅 适 用 于 SM 
仅 适用 于 SM 
人 用 于 SM 
仅 适用 于 DM 
仅 适用 于 DM 
仅 适用 于 SM 
仅 适用 于 DM 





‘ollmom|l 和 A|IoIm|RIDID|ICm 
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7.5 PIM DenseMode 


PIM-DM 的 工作 机 制 包 括 扩 散 、 剪 枝 、 嫁 接 、 状 态 刷 新 及 断言 机 制 。 其中， 扩散 、 
前 枝 是 生成 SPT 的 主要 方法 ， 而 嫁接 和 状态 刷新 是 对 扩散 剪 枝 机 制 的 改进 增强 。 


7.5.1 扩散 (Flooding ) 及 剪 枝 机 制 


PIM DM 使 用 扩散 一 剪 枝 机制 转 发 数据 。 其 扩散 过 程 如 下 : 当 一 台 路 由 器 收 到 组 播 
报 文 后 ， 先 执行 RPF 检查 ， 通 过 检查 后 的 报 文 向 所 有 其 他 有 PIM 邻居 或 有 IGMP 接收 
者 的 接口 复制 转发 ， 如 果 没 有 其 他 邻居 或 不 再 有 IGMP 接收 者 ， 则 丢弃 报 文 并 不 再 继续 
扩散 。 而 只 要 路 由 器 组 播 表 项 下 游 接口 非 空 ， 报 文 就 会 继续 扩散 下 去 。 

前 枝 过 程 是 当 报 文 扩散 到 末端 路 由 器 后 , 由 于 其 没有 PIM 邻居 或 没有 IGMP 接收 者 ， 
组 播 表 项 下 游 接 口 列 表 为 空 ， 路 由 器 会 同上 游 邻居 发 送 前 枝 报 文 ， 通 知 上 游 邻 届 不 要 再 
继续 将 组 播报 文 转发 下 来 ， 上 游 邻 居 收 到 剪 枝 报 文 后 ， 会 将 收 到 剪 梳 报 文 的 接口 从 其 组 
播 表 项 下 游 接口 列表 中 剪除 。 如 果 路 由 器 的 下 游 接口 都 被 剪除 ， 会 触发 路 由 器 继续 向 其 
上 游 发 送 剪 枝 。 而 如 果 下 游 接 口 仍 有 其 他 接口 ， 则 不 再 继续 前 枝 ， 剪 枝 行 为 终止 。 

组 播 源 活跃 时 ， 初 始 开始 扩散 ， 头 一 份 组 播报 文 扩散 到 全 网 ， 报 文 经 过 每 台 路 由 器 
时 ， 会 在 每 台 路 由 器 上 创建 组 播 表 项 。 发 生 剪 枝 后 ， 报 文 不 再 继续 向 剪 枝 接 口 扩 散 。 但 
210s 后 被 前 掉 的 接口 会 重新 出 现在 下 游 接口 列表 中 , 组 播 数据 报 文 会 再 次 向 该 接口 扩散 ， 
如 果 收 到 下 游 路 由 器 的 剪 枝 报 文 ， 则 接口 再 次 前 除 并 不 再 扩散 。 此 过 程 会 每 210s 后 重复 
发 生 。( 此 处 尚未 考虑 状态 一 刷新 机 制 ) 

PIM DM 使 用 〈S,G) 表 项 转发 组 播 数据 ， 使 用 命令 display pim routing-table fsm 查 
看 (S,G) 表 项 。 

以 下 是 PIM DM 的 组 播 路 由 表 : 

<R1>display pim routing-table fm 

VPN-Instance: public net 

Total 0 (*, G) entry; 1 (S, G) entry 

， Abbreviations for FSM states and Timers: 

NI-no info, J-joined, NJ-not joined, P-pruned, 

NP-not pruned, PP-prune pending, W-winner, L-loser, 
F-forwarding, AP-ack pending, DR-designated router, 
NDR-non-designated router, RCVR-downstream receivers, 
PPT-prunepending timer, GRT-gratt retry timer, 
OT-override timer, PLT-prune limit timer, 

ET-join expiry timer, JT-join timer, 

AT-assert timer, PT-prune timer 

(10.1.1.100, 229.1.2.3) 

Protocol: pim-dm, Flag: LOC ACT 

UpTime:00:01:08 

Upstream interface: GigabitEthernet0/0/0 
Upstream neighbor: NULL 
RPF prime neighbor: NULL 
Join/Prune FSM: [F] 

Downstream interface(s) information: None 
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FSM information for non-downstream interfaces: 
1: Seriall/0/0 
Protocol: pim-dm 
DR state: [NDR] 
Join/Prune FSM: [P, PT Expires: 00:02:43] 
Assert FSM: [NI] 
(S,G) 表 项 的 下 游 接口 列表 为 空 的 原因 包括 : 当前 路 由 器 没有 直 连 接收 者 或 接口 被 
Prune 前 枝 报 文 所 剪除 。 被 剪除 的 接口 会 自动 关联 一 个 210s 的 前 校 计 时 器 (Prune Timer， 
PT)。 从 上 面 的 输出 可 以 看 出 被 剪除 掉 的 接口 S1/0/0，PT 计时 器 显示 接口 会 在 2min43s 


后 重新 出 现下 游 接口 列表 中 。 


说 明 : 

1 下游 接 口 为 空 是 触发 向 上 游 剪 枝 或 转发 剪 枝 的 一 个 条 件 ; 

2， 扩散 及 前 枝 过 程 是 周期 发 生 的 ，210s 后 ， 被 剪除 的 接 只 会 重新 出 现在 下 游 接 口 列 
表 中 。 但 需 注 意 的 是 若 此 时 没有 组 播报 文 流下 ， 则 即使 下 游 路 由 器 的 下 游 接口 列表 为 空 ， 
也 不 会 触发 其 发 剪 枝 。 所 以 有 扩散 的 数据 是 DM 剪 枝 的 又 一 个 条 件 。 


7.5.1.1 上 游 接口 (upstream interface) 及 状态 
上 游 接 口 又 叫 作 RPF 接口 ， 是 根据 组 播报 文 的 源 地 址 ， 查 找 单 播 路 由 表 而 确定 的 距 
离 组 播 源 最 近 的 接口 。 根 据 上 游 接口 的 操作 行为 ， 接 口 会 有 以 下 几 种 状态 。 

e。 NoImfo (NI): 没有 接口 状态 。 

。 Pruned (P): 已 经 向 上 游 发 送 Prune 报 文 。 

。 ”Forwarding (FE): 〈S,G) 下 游 接口 非 空 时 ， 组 播报 文 从 上 游 接口 收 到 。 

e。 AckPending (AP): 已 经 发 送 Graft 报 文 ， 等 待 GraftAck 报 文 。 

7.5.1.2 下游 接口 列表 及 接口 状态 

转发 数据 的 外 出 接口 列表 , 又 叫 下 游 接 口 列表 。 接口 列表 中 的 接口 状态 有 如 下 几 种 。 

。 NI (NoInfo): 接口 为 正常 接口 ,会 一 直 转 发 组 播 数据 的 状态 ， 接 口 的 初始 

。 了 P (Pruned): 接口 已 被 剪除 ， 不 再 转发 组 播 数据 ， 接 口 不 会 出 现在 Display Pim 
Routing-table 中 ， 但 会 出 现在 Display Pim Routing-table Fsm 中 ， 该 接口 会 置 


i 位 。 
。 PP (PrunePending): 接口 处 于 延缓 前 除 状态 ， 仍 能 转发 组 播 数据 。 
与 下 游 接 口 相关 的 计时 器 如 下 。 


e ”Prune Pending Timer: 延缓 前 枝 计时 器 。 

e “Prune Timer: 前 枝 计 时 器 。 

示例 : 如 图 7-25 所 示 ， 组 播 源 地 址 为 10.1.1.100， 接 收 者 是 PC1，PC2 目前 不 是 接 
收 者 。 组 播 路 由 器 使 用 DM 模式 ， 分 析 扩 散 一 剪 枝 过 程 。 

配置 过 程 : 

址 1 

multicast routing-enable 

# 


interface GigabitEthernet0/0/0 
ip address 10.1.1.1 255.255.255.0 
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pim dm | 
# 
interface Seriall/0/0 
ip address 10.1.12.1 255.255.255.0 
pim dm 
# | 
其 他 路 由 器 配置 相似 ， 此 处 略 。 



















a 1 10112024 ,EEE ， 





GO/0/0 


5 SLO/1 |. 
Source 10.1.1.100 


10.1.24.0/24 


S1/0/1 


10.1.56.0/24 


图 7-25 PIM DM 组 播 转 发 机 制 


扩散 过 程 : 
组 播 源 10.1.1.100 开始 向 直 连 网 段 泛 洪 目标 卫 地 址 为 229.1.2.3 的 组 播报 文 , 组 播 源 
上 无 需 启 用 任何 组 播 协议 。 


头 一 跳 路 由 器 R1 未 收 到 组 播报 文 前 , 组 播 转发 表 为 空 , 当 收 到 第 一 份 组 播报 文 时 ， 
先 执行 RPF 检查 ， 检 查 通过 后 ， 创 建 组 播 表 项 (10.1.1.100，229.1.2.3)。 图 7-25 中 ， 
除 RPF 接口 以 外 的 其 他 接口 都 是 下 游 接口 , 报 文 继续 向 下 游 接 口 扩散 。R1 的 组 播 转发 
表 如 下 : 


<R1>display pim routing-table 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S$, G) entry 
(10.1.1.100, 229.1.2.3) ， 
Protocol: pim-dm, Flag: LOC ACT 
UpTime: 00:02:48 
Upstream interface: GigabitEthernet0/0/0 
Upstream neighbor: NULL 
RPF prime neighbor: NULL 
Downstream interface(s) information: 
Total number of downstreams; 1 
1: Seriall/0/0 
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Protocol: pim-dm, UpTime: 00:02:48, Expires: never 


# 

R2 收 到 报 文 后 ,创建 (10.1.1.100，229.1.2.3) 表 项 ， 其 下 游 接口 是 G0/0/0 和 S1/0/1 
接口 。 报 文 经 过 R2 继续 扩散 ，R3 和 R4 分 别 创建 〈10.1.1.100，229.1.2.3) 表 项 。 

R3 上 “(10.1.1.100，229.1.2.3〉 上 游 接口 是 G0/0/0。 下 游 接 口 是 G0/0/1。R4 上 创建 
(10.1.1.100，229.1.2.3) 表 项 ， 其 上 游 接口 是 S1/0/1。R4 在 G0/0/0 接口 有 229.1.2.3 组 播 
接收 者 ， 所 以 R4 的 下 游 接 口 有 S1/0/0 和 G0/0/0。 

特殊 一 点 的 是 在 R5 上 ， 组 播 数据 分 别 由 上 游 邻 居 R3 和 R4 扩散 至 R5 上 ， 同 样 的 
组 播报 文 ， 源 耳 地 址 是 10.1.1.100， 目 标 卫 地 址 是 229.1.2.3。R5 在 S1/0/0 和 G0/0/1 接 
口 重复 收 到 两 份 ，R5 仅 扩散 转发 RPF 接口 收 到 的 组 播报 文 。 


<R5>display multicast rpf-info 10.1.1.100 
VPN-Instance: public net 
RPF information about source: 10.1.1.100 
RPF interface: GigabitBthernet0/0/1, RPF neighbor: 10.1.35.3 
Referenced route/mask: 10.1.1.0/24 
Referenced route type: unicast 
Route selection rule: preference-preferred 
Load splitting rule: disable 
R5 先 创 建 〈S,G) 表 项 ， 并 对 报 文 执行 RPF 检查 ， 判 断 离 组 播 源 最 近 的 接口 ， 根 据 
路 由 表 可 知 是 G0/0/1。 根 据 扩散 的 定义 ， 除 RPF 接口 外 ， 其 他 有 PIM 邻居 的 接口 是 下 
游 接 口 ， 所 以 S1/0/0 和 S1/0/1 接口 是 R5 下 游 转发 接口 。R5 丢弃 从 S1/0/0 接口 收 到 的 组 
播报 文 ， 同 时 ， 把 从 RPF 接口 G0/0/1 收 到 的 组 播报 文 转发 给 S1/0/0 和 S1/0/1。 
特殊 的 是 扩散 行为 导致 在 S1/0/0 链 路 上 因 R4 和 RS5 都 推送 “同样 的 ”组 播报 文 到 
一 条 链 路 上 而 致 冲突 ， 此 处 会 触发 Assert 机 制 来 解决 这 个 问题 ，Assert 机 制 的 结果 是 
Rs 和 R4 都 从 (SG) 下 游 接口 列表 中 剪除 S1/0/0 接口 ， 这 样 Rs 就 仅 向 R6 转发 组 播 


报 文 。 
[RS]display pim routing-table 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 


(10.1.1.100, 229.1.2.3) 
Protocol: pim-dm, Flag: ACT 
UpTime: 00:02:52 
Upstream interface: GigabitEthernet0/0/1 
Upstream neighbor: 10.1.35.3 
RPF prime neighbor: 10.1.35.3 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: Seriall/0/1 
Protocol: pim-dm, UpTime: 00:02:52, Expires: never 
# 
<[R5S]display pim routing-table fsm 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 


Abbreviations for FSM states and Timers: 


NI-no info, J-joined, NJ-not joined, P-pruned, 
NP-not pruned, PP-prune pending, W-winner, L-loser, 
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F-forwarding, AP-ack pending, DR-designated router, 
NDR-non-designated router, RCVR-downstream receivers, 
PPT-prunepending timer, GRT-graft retry timer, 
OT-override timer, PLT-prune limit timer, 

ET-join expiry timer, JT-join timer, 

AT-assert timer, PT-prune timer 


(10.1.1.100, 229.1.2.3) 
Protocol: pim-dm, Flag: ACT 
UpTime: 00:02:55 
Upstream interface: GigabitEthernet0/0/1 
Upstream neighbor: 10.1.35.3 
RPF prime neighbor: 10.1.35.3 
Join/Prune FSM: [F] 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: Seriall/0/1 
Protocol: pim-dm, UpTime: 00:02:55, Expires: never 
DR state: [NDR] 
Join/Prune FSM: [NI 
Assert FSM: [NJ] 


FSM information for non-downstream interfaces: 
1: GigabitEthernet0/0/1 
Protocol: pim-dm 
DR state: [DR] 
Join/Prune FSM: [NJ] 
Assert FSM: [L, AT Expires: 00:02:10] 
Winner: 10.1.35.3, Pref: 10, Metric: 50 
2: Seriall/0/0 
Protocol: pim-dm 
DR state: [DR] 
Join/Prune FSM: [P, PT Expires: 00:02:10] 
Assert FSM: [W, AT Expires: 00:02:10] 
Winner: 10.1.45.5, Pref: 10, Metric: 51 


R6 上 收 到 组 播报 文 , 创建 (S,G) 表 项 , 但 其 下 游 接口 为 空 , 原因 是 没有 PIM 邻居 ， 
也 没有 组 播 接收 者 。 


<R6>display pim routing-table 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S$, G) entry 


(10.1.1.100,229.1.2.3) 
Protocol: pim-dm, Flag: ACT 
UpTime: 00:17:36 
Upstream interface: Seriall/0/1 
Upstream neighbor: 10.1.56.5 
RPF prime neighbor: 10.1.56.5 
Downstream interface(s) information: None 
PIM DM 按 上 述 过 程 完成 组 播 表 的 创建 ， 此 后 ， 只 要 源 一 直 活 跃 , 后 续 的 组 播报 文 流 经 
每 台 组 播 路 由 器 时 ， 根 据 组 播 表 项 向 指定 接口 扩散 转发 。 需 要 说 明 一 点 的 是 ， 初 次 扩散 时 ， 
数据 报 文 在 每 台 路 由 器 上 创建 表 项 时 ， 执 行 RPF 检查 确定 上 游 接 口 。 后 续 扩 散 报 文 时 ， 只 
要 组 播 数据 进来 的 接口 为 表 项 中 的 上 游 接 口 ， 报 文 就 向 下 游 接口 扩散 下 去 。 
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前 枝 过 程 : 

图 7-25 中 ，R4 和 R6 是 最 后 一 跳 路 由 器 ， 其 中 ， 如 果 R6 下 游 没 有 接收 者 ， 但 根据 
组 播 表 ， 组 播报 文 仍 持续 流 到 R6， 这 会 浪费 网 络 资源 。 剪 枝 机 制 会 前 掉 不 必要 的 链 路 ， 
以 减少 扩散 对 网 络 的 影响 。 

R6 向 RPF 邻居 RS 发 送 Prune 前 枝 报 文 ，R5 收 到 Prune 剪 枝 报 文 后 ， 将 S1/0/1 接 
口 从 下 游 接 口 列表 移 到 非 下 游 接口 列表 ， 并 置 S1/0/1 为 被 剪 枝 状态 (Pruned)， 并 启动 
PT 计时 器 ， 计 时 器 时 长 210s。 另 一 个 接口 SO/0/0 在 扩散 期 间 因 触发 Assert 机 制 而 被 前 
除 ， 所 以 R5 的 下 游 接口 列表 为 室 。 表 项 下 游 接口 为 空 是 触发 Prune 前 枝 的 条 件 ， 所 以 
R5 继续 向 上 游 RPF 邻居 R3 转发 Prune 剪 枝 报 文 。R3 收 到 前 枝 后 , 唯一 的 下 游 接口 G0/0/1 
被 剪除 ， 剪 枝 行为 继续 ， 直 至 前 到 R2。 

R4 的 G0/0/0 接口 有 直 连 的 组 播 接收 者 ， 所 以 R4 并 不 产生 前 枝 行 为 。 

R2 根据 从 R3 收 到 的 前 枝 报 文 ， 将 G0/0/0 接口 剪除 。 其 他 接口 没有 收 到 前 枝 报 文 ， 
所 以 由 R6 发 起 的 前 枝 过 程 到 了 R2 终止 。 剪 枝 后 的 结果 如 图 7-26 所 示 。 






Source 


10.1.1.100 
10.1.24.0/24 10.1.35.1/24 
GO/0/0 5| suon 
10.1.40.0/24 onsgabag 
R6 
/0/1 
PC2 
图 7-26 剪 枝 后 状态 
说 明 : 


R4 和 R5 之 间 链 路 被 剪除 的 过 程 参考 后 面 的 Assert 机 制 。 


图 7-27 是 截取 R5 向 R3 发 送 的 前 枝 报 文 ， 报 文中 ， 包 含 Upstream-neighbor 地 址 ， 
这 是 接收 该 前 枝 报 文 的 路 由 器 的 地 址 。Holdtime 时 间 指 明 被 剪除 的 接口 在 多 少 秒 后 恢复 。 

剪 枝 报 文 (如 图 7-27 所 示 ) 是 事件 触发 的 ， 被 前 枝 的 接口 在 210s 后 恢复 转发 状态 ， 
组 播报 文 会 再 次 扩散 到 下 游 路 由 器 , 若 下 游 路 由 器 的 组 播 表 项 没有 下 游 接 口 ， 剪 枝 行为 再 
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次 发 生 。 在 图 7-26 中 ，R2 的 下 游 接口 G0/0/0 在 PT 超时 后 ， 重 新 开始 扩散 数据 ， 这 会 
触发 下 游 路 由 器 发 送 前 枝 报 文 。 若 无 数据 扩散 出 去 ， 则 不 会 发 生 剪 梳 行 为 。 

PT 超时 后 ,会 重新 扩散 ， 再 前 枝 , 重复 的 过 程 会 反复 发 生 ， 对 网 络 是 种 负荷 。 同 时 ， 
若 R6 的 下 游 接 口 出 现 229.1.2.3 组 播 组 的 接收 者 , 由 于 上 游 路 由 器 要 在 210s 后 重新 扩散 ， 
接收 者 会 引入 加 入 延迟 ， 所 以 PIM DM 引入 嫁接 机 制 。 


田 Internet Protocol Version 4, src: 10.1.35.5 (10.1.35.5); Dst: 224.0.0.13 (224.0.0.13) 
protocol Independent Multicast 
0010 .... = Version: 2 
.. O011 = Type: Join/prune (3) 
Reserved byte(s): 00 
Checksum: Oxb97d [correct] 
BB PIM options 
Upstream-neighbor: 10.1.35.3 (10.1.35.3) 
Reserved bytre(s): 00 
Num Groups: 1 
Holdrime: 210s 
B Group 0: 229.1.2.3/32 
Num Joins: 0 
日 Num Prunes: 1 
IP address: 10.1.1.100/32 


图 7-27 前 村 报 文 


7.5.2 ”嫁接 机 制 


在 PIM DM 中 ， 当 了 R6 下 有 一 台 主 机 想 要 加 入 229.1.2.3 组 播 组 时 ， 最 后 一 跳 路 由 器 
R6 必须 等 待 R5 组 播 表 下 游 接 口 S1/0/1 前 枝 计 时 器 超时 ， 组 播报 文才 会 扩散 给 R4， 这 
个 时 间 要 210s。 就 是 说 ， 如 果 没有 其 他 机 制 帮 忙 ， 在 末节 路 由 器 上 ， 如 果 出 现 组 播 接收 
者 ,接收 者 最 长 等 待 210s 才能 收 到 组 播 数据 。 此 处 引入 嫁接 机 制 ， 可 降低 用 户 收 到 组 播 
数据 的 等 待 时 间 。 

嫁接 过 程 是 下 游 路 由 器 主动 向 上 游 RPF 路 由 器 发 送 Graft 报 文 ， 要 求 上 游 路 由 器 主 
动 把 被 剪除 的 接口 添加 到 下 游 接口 列表 的 过 程 ， 整 个 过 程 是 可 靠 的 。 

图 7-26 中 ， 若 R6 下 有 接收 者 出 现 ， 请 分 析 其 嫁接 过 程 。 

当 R6 收 到 以 太 网 段 接收 者 发 送 的 IGMP 成 员 报 告 后 , R6 上 (10.1.1.100, 229.1.2.3) 
组 播 表 项 下 游 接 口 非 空 ， 添 加 G0/0/0 接口 ， 并 触发 R5 向 上 游 RPF 邻居 R3 单 播发 送 嫁 
接 报 文 (如 图 7-28 所 示 ) 并 启动 嫁接 定时 器 (3s) 。 


Internet Protocol Version 4, Src: 10.1.56.6 (10.1.56.6), Dst: 10.1.56.5 (10.1.56.5) 
EB Protocol Independent Multicast 
0010 .... = Version: 2 
.. O0110 = Type: Graft (6) 
Reserved byte(s): 
Checksum: Oxa24d [correct] 
6B PIM options 
Upstream-neighbor: 10.1.56.5 (10.1.56.5) 
Reserved byte(s): 00 
Num Groups: 1 
Holdtime: 0s 
日 Group 0: 229.1.2.3/32 
日 Num Joins: 1 
IP address: 10.1.1.100/32 
Num Prunes: 


图 7-28 嫁接 报 文 
上 游 RPF 邻居 RS 收 到 嫁接 报 文 后 ， 若 该 接口 已 处 于 转发 状态 ， 则 单 播 回应 嫁接 确认 报 
文 。 若 该 接口 处 于 前 枝 状 态 , 则 变 为 转发 状态 , 同时 单 播 回应 嫁接 确认 报 文 (如 图 7-29 所 示 ) 。 
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田 Internet Protocol Version 4, Src: 10.1.56.5 (10.1.56.5), Dst: 10.1.56.6 (10.1.56.6) 
日 Protocol Independent Multicast 
0010 .... = Version: 2 
+ Olill = Type: Graft-aAck (7) 
Reserved byte(s): 00 
Checksum: 0xal4c [correct] 
BB PIM options 
Upstream-neighbor: 10.1.56.6 (10.1.56.6) 
Reserved byte(s): 00 
Num Groups: 1 
Holdtime: 0s 
忆 Group 0: 229.1.2.3/32 
BE Num Joins: 1 
IP address: 10.1.1.100/32 
Num Prunes: 0 


图 7-29 ”嫁接 确认 报 文 
由 于 此 时 ，R5 的 组 播 表 的 下 游 接 口 非 空 ， 触 发 R5 继续 向 上 游 的 发 送 嫁接 报 文 。 


<R5S>display pim routing-table 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 


(10.1.1.100, 229.1.2.3) 
Protocol: pim-dm, Flag: ACT 
UpTime: 01:54:35 
Upstream interface: GigabitEthernet0/0/1 
Upstream neighbor: 10.1.35.3 
RPF prime neighbor: 10.1.35.3 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: Seriall/0/1 
Protocol: pim-dm, UpTime: 00:01:54, Expires: never 
R5 的 RPF 邻居 是 R3， 所 以 R5 经 RPF 接口 G0/0/1 向 RPF 邻居 R3 发 送 嫁 接 报 文 ， 
收 到 回应 的 嫁接 确认 报 文 后 , 切换 为 转发 状态 ,但 车 3s 超时 后 仍 没有 收 到 嫁接 确认 报 文 ， 
则 继续 向 RPF 邻居 重新 发 送 嫁接 报 文 。 整 个 过 程 一 直 持 续 下 去 , 直至 收 到 嫁接 确认 报 文 。 
R3 上 发 生 和 R5 上 一 样 的 事情 ，R3 当下 游 接 口 G0/0/1 恢复 转发 时 ，R3 同样 向 R2 
发 送 嫁接 报 文 ， 并 等 竺 嫁接 确认 报 文 。 
嫁接 操作 结束 后 ， 组 播 流 可 以 通过 新 嫁接 的 “树枝 ”把 组 播报 文 转发 下 来 。 
嫁接 过 程 是 对 扩散 一 剪 枝 过 程 的 一 种 补充 ， 可 优化 接收 者 收 到 组 播报 文 的 时 间 。 
至 此 ，PIM DM 中 ， 如 果 最 后 一 跳 路 由 器 下 出 现 接收 者 ， 则 开始 嫁接 过 程 。 而 如 果 
没有 接收 者 ， 则 开始 剪 枝 过 程 。 这 样 ， 既 然 有 了 主动 嫁接 的 过 程 ， 已 剪 枝 接口 超时 后 重 
新 扩散 来 添加 接口 的 过 程 就 显得 不 必要 了 。 所 以 接 下 来 的 状态 刷新 机 制 进一步 优化 PIM 
DM 的 扩散 一 剪 校 机 制 。 


7.5.3 ”状态 刷新 机 制 


7.5.3.1 状态 刷新 

状态 刷新 (State-Refresh)， 以 下 简称 SR， 属 于 PIM DM 的 可 选 功 能 ， 由 RFC3973 
定义 ， 仅 PIMv2 支持 。 状 态 刷新 机 制 需 要 路 由 器 的 支持 ， 华 为 设备 在 建立 邻居 关系 时 ， 
会 通过 Hello 报 文 选项 类 型 21 进行 能 力 的 协商 ， 只 有 协商 通过 ， 才 在 相应 邻居 上 支持 
SR 功能 ， 华 为 默认 支持 PIM DM 状态 刷新 机 制 。 


# pim state-refresh-capable 接口 命令 默认 开启 
[R1]display pim interface verbose 


| 第 七 章 Multicast | 


VPN-Instance: public net 
Interface: GigabitEthernet0/0/0, 10.1.1.1 
PIM version: 2 
PIM mode: Dense 
PIM state: up . 
PIM state-refresh processing: enabled 
PIM state-refresh interval: 60 's 
PIM graft retry interval: 3 8 
PIM state-refresh capability on link: capable 
PIM BFD: disabled 


在 PIM DM 网 络 中 ， 被 前 枝 的 接口 会 在 前 枝 计时 器 超时 后 ， 重 新 扩散 ， 如 果 下 游 没 
有 接收 者 ， 这 种 周期 扩散 对 网 络 是 种 负荷 。 状 态 刷 新 机 制 使 用 周期 扩散 控制 报 文 SR 来 
取代 周期 扩散 组 播 数据 , 使 已 前 枝 的 接口 继续 保持 前 枝 状 态 ， 以 减少 网 络 不 必要 的 扩散 。 
启用 了 SR 的 PIM DM 网 络 ， 组 播 数据 的 初次 扩散 还 有 ， 但 后 续 的 扩散 则 被 SR 取代 ， 
组 播 分 发 树 的 维护 靠 Graft 及 Prune 来 保证 。 

分 析 图 7-26 场景 下 的 SR 过 程 。 

离 组 播 源 最 近 的 第 一 跳 路 由 器 会 以 60s 为 间隔 周期 产生 状态 刷新 报 文 并 向 全 网 扩 
散 ， 其 扩散 的 方式 同 组 播报 文 扩散 的 方式 一 样 ，SR 报 文 会 向 任何 PIM 邻居 扩散 ，SR 报 
文 仅 刷新 相应 表 项 的 下 游 接 口 。 如 果 该 接口 已 被 剪除 ， 则 状态 刷新 报 文 会 复位 接口 的 剪 
枝 计时 器 ， 使 接口 不 会 超时 ， 接 口 将 一 直 处 于 剪 枝 状 态 。 

图 7-26 中 ，R2 的 下 游 接 口 G0/0/0 处 于 剪 枝 状 态 。PT 计时 器 会 递减 到 08， 当 前 递 
减 到 2min32s。 

<R2>display pim routing-table fsm 


VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 


Abbreviations for FSM states and Timers: 
NI-no info, J-joined, NJ-not joined, P-pruned, 
NP-not pruned, PP-prune pending, W-winner, L-losep 
F-forwarding, AP-ack pending, DR-designated router, 
NDR-non-designated router, RCVR-downstream receivers, 
PPTprunepending timer, GRT-graft retry timer, 
OT-override timer, PLT-prune limit timer, 
ET-join expiry timer, JT-join timer, 
AT-assert timer, PT-prune timer 


(10.1:1.100, 229.1.23) . 
Protocol: pim-dm, Flag: ACT 
UpTime: 04:26:00 
Upstream interface: Seriall/0/0 
Upstream neighbor: 10.1.12.1 
RPF prime neighbor: 10.1.12.1 
Join/Prune FSM: [F] 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: Seriall/0/1 
Protocol: pim-dm, UpTime: 04:26:00, Expires: never 
DR state: [NDR] 
Join/Prune FSM: [NI] 
Assert FSM: [NI] 
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FSM information fornon-downstream interfaces: 

1: GigabitEthernet0/0/0 
Protocol: pim-dm 
DR state: [NDR] 
Join/Prune FSM: [P, PT Expires: 00:02:32] 
Assert FSM: [NI] 

2: Seriall/0/0 
Protocol: pim-dm 
DR state: [DR] 
Join/Prune FSM: [NJ] 
Assert FSM: [L, AT Expires: 00:02:02] 

Winner: 10.1.12.1, Pref: 0, Metric: 0 


说 明 : 
display pim routing-table km 中 ， 下 游 接 口 S1/0/0 的 当前 状态 为 已 剪 枝 状 态 ，“P” 代 表 
pruned; “PT” 代 表 prune timer， 并 将 在 2min32s 后 超时 。 


在 2s 后 ，R2 收 到 并 转发 SR 报 文 ，SR 报 文 刷 新 Prune 接口 计时 器 ， 计 时 器 重新 从 
210s 开始 递减 计时 ， 并 维持 接口 的 剪 枝 状 态 。 
<r2>display pim routing-table fsm 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 


Abbreviations for FSM states and Timers: 
NI-no info, J-joined, NJ-not joined, P-pruned, 
NP-not pruned, PP-prune pending, W-winner, L-loser, 4 时 
F-forwarding, AP-ack pending, DR-designated router, 
NDR-non-designated router, RCVR-downstream receivers, 
PPT-prunepending timer, GRT-graft retry timer, 
OT-override timer, PLT-prune limit timer, 
ET-join expiry timer, JT-join timer, 
AT-assert timer, PT-prune timer 


(10.1.1.100, 229.1.2.3) 
Protocol: pim-dm, Flag: ACT 
UpTime: 04:26:05 
Upstream interface: Seriall/0/0 
Upstream neighbor: 10.1.12.1 
RPF prime neighbor: 10.1.12.1 
Join/Prune FSM: [F] 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: Seriall/0/1 
Protocol: pim-dm, UpTime: 04:26:05, Expires: never 
DR state: [NDR] 
Join/Prune FSM: [NT] 
Assert FSM: [NI 


FSM information for non-downstream interfaces: 
1: GigabitEthernet0/0/0 
Protocol: pim-dm 
DR state: [NDR] 
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Join/Prune FSM: [P, PT Expires: 00:03:27] 
Assert FSM: [NI 
2: Seriall/0/0 

Protocol: pim-dm 

DR state: [DR] 

Join/Prune FSM: [NI 

Assert FSM: [L, AT Expires: 00:02:57] — 

Winner: 10.1.12.1, Pref: 0, Metric: 0 

7.5.3.2 ”状态 刷新 过 程 


R1 作为 头 一 跳 路 由 器 初始 产生 状态 刷新 报 文 ， 如 图 7-30 所 示 ， 其 他 路 由 器 收 到 后 
进行 扩散 转发 ， 扩 散 行为 同 扩散 组 播 数据 过 程 一样 ， 头 一 跳 路 由 器 产生 并 决定 每 份 SR 
报 文中 内 容 ， 携 带 相应 的 〈 源 、 组 播 组 ) 信息 、TTL 值 、 头 一 跳 路 由 器 出 接口 地 址 、 当 
前 路 由 表 中 到 组 播 源 的 路 由 协议 优先 级 、Metric 及 掩 码 长 度 。 其 中 ，P 位 代表 Prune， 置 
位 与 否 根据 SR 报 文 的 接口 状态 来 决定 ， 如 果 状 态 刷 新 报 文 流出 的 接口 为 Prune 状态 ， 
则 P 置 1; 如 果 状 态 刷 新 报 文 流出 的 接口 为 转发 状态 ， 则 P=0。 


Internet Protocol Version 4, Src: 10.1.12.1 (10.1.12.1), Dst: 224.0.0.13 (224.0.0.13) 
Protocol Independent Multicast 
0010 .... = Version: 2 
.. 1001 = Type: State-Refresh (9) 
Reserved byte(s): 00 
Checksum: 0x5238 [correct] 
SPIM options 
Group: 229.1.2.3 (229.1.2.3)/32 
Source: 10.1.1.100 (10.1.1.100) 
originator: 10.1.12.1 (10.1.12.1) 
0. .= RP Tree: False 
.000 0000 0000 0000 0000 0000 0000 0000 = Metric preference: 0 
Metric: 0 
Masklen: 24 
TTL: 255 
a i = Prune indicator: NOt sert 
“1,.. .... = Prune now: set 
s1。 .. = Assert override: Set 
Interval: 60 


7-30 ”Rl 初始 产生 的 状态 刷新 报 文 


只 要 源 活 跃 ， 状 态 刷 新 报 文 由 第 一 跳 路 由 器 周期 产生 ， 并 被 逐 跳 扩散 到 下 游 的 每 一 
台 路 由 器 ， 扩 散 过 程 中 遇 到 前 枝 的 接口 ， 复 位 计时 器 ， 和 否则 向 下 游 邻 居 扩 散 。 而 当 组 播 
源 不 再 活跃 时 ， 第 一 跳 路 由 器 将 不 再 产生 状态 刷新 报 文 。 

任何 路 由 器 收 到 状态 刷新 报 文 ， 先 判断 报 文 是 否 从 RPF 邻居 发 来 并 从 RPF 接口 收 
到 根据 报 文 的 源 卫 地 址 判定 是 否 源 自 RPF 邻居 )， 如 果 不 是 ， 则 丢弃 ; 如 果 状 态 刷 新 
报 文通 过 RPF 检查 , 则 路 由 器 将 收 到 报 文中 的 TTL 减 一 ,把 当前 路 由 表 中 到 源 10.1.1.100 
的 路 由 协议 的 优先 级 和 Metric 放 到 刷新 报 文中 ,然后 从 下 游 接 口 列表 中 所 有 的 下 游 接口 
(包括 前 枝 的 和 非 剪 枝 的 接口 ) 转发 出 去 ， 直 至 流 到 网 络 边缘 。 

状态 刷新 报 文 是 逐 跳 扩 散 的 ， 经 过 每 一 跳 时 ， 源 接口 卫 都 是 出 接口 PP， 目标 地 址 
为 224.0.0.13 。 

state-refresh-interval 全 局 PIM 命令 用 来 修改 默认 的 刷新 间隔 ， 此 命令 只 在 与 组 播 源 
直 连 设备 上 配置 有 效 。 为 了 避免 被 前 枝 接口 因 状态 超时 而 恢复 转发 ，SR 报 文 的 发 送 间 隔 
时 间 应 该 小 于 保持 Prune 状态 的 超时 时 间 。 使 用 holdtime join-prune (IPv4) 命令 可 以 配 
置 路 由 器 保持 Prune 状态 的 时 间 。 

state-refresh-rate-limit 全 局 PIM 命令 来 配置 接收 新 PIM 状态 刷新 消息 前 必须 经 过 的 
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最 小 时 间 长 度 ， 路 由 器 可 能 在 很 短 的 时 间 内 收 到 来 自 多 个 路 由 器 的 PIM 状态 刷新 消息 ， 
而 其 中 有 些 消 息 是 重复 的 。 执 行 该 命令 后 ， 当 路 由 器 接收 到 第 一 个 状态 刷新 消息 时 ， 立 
即 刷新 相关 前 枝 定 时 器 ， 并 启动 状态 刷新 定时 器 ， 超 时 时 间 为 接收 下 个 状态 刷新 消息 的 
等 候 时 间 。 

状态 刷新 定时 器 超时 前 收 到 重复 的 刷新 消息 被 丢弃 。 状 态 刷新 定时 器 超时 后 ， 人 允许 
接收 下 一 个 状态 刷新 消息 。 如 图 7-31 所 示 。 


田 Internet Protocol Version 4, src: 10.1.23.2 (10.1.23.2), Dst: 224.0.0.13 (224.0.0.13) 
日 Protocol Independent Multicast 
0010 .... = Version: 2 
“-.. 1001 = Type: State-Refresh (9) 
Reserved byte(s): 00 
Checksum: 0xllfe [correct] 
BPIM options 
Group: 229.1.2.3 (229.1.2.3)/32 





Source: 10.1.1.100 (10.1.1.100) 

originator: 10.1.12.1 (10.1.12.1) 

0... .... = RP Tree: False 

.000 0000 0000 0000 0000 0000 0000 1010 = Metric Preference: 10 
Metric: 49 

Masklen: 24 

TTL: 254 

1... .... = Prune indicator: Set 

:0.. .... = Prune now: NOT Set 

“1. .... = Assert Override: SeT 

Interval: 60 


图 7-31 从 R2 发 出 的 刷新 报 文 


7.5.4 ”前 枝 否决 机 制 及 剪 枝 延 迟 ( PrunePending ) 计时 器 


图 7-32 中 ，R3 的 下 游 接口 G0/0/1 没有 组 播 接 收 者 ， 而 R4 的 G0/0/1 接口 有 组 播 接 
收 者 ， 组 播报 文 经 R1 扩散 到 R2， 由 上 游 $1/0/0 接口 收 到 后 ， 转 发 给 下 游 G0/0/0 接口 。 
R3 和 R4 在 G0/0/0 接口 收 到 组 播报 文 后 ， 在 创 
建 的 (S,G) 表 项 中 ，R4 的 下 游 接 口 G0/0/1 下 
有 组 播 接收 者 ， 所 以 组 播报 文 向 G0/0/1 接口 转 
发 。 因为 R3 的 下 游 接 口 列表 为 空 , R3 会 向 RPF 
上 游 邻 居 R2 发 送 前 枝 报 文 Prune (S,G)。 该 前 
枝 报 文 的 目标 地 址 为 224.0.0.13， 报 文中 的 上 游 
邻居 地 址 指向 R3 的 RPF 邻居 ， 可 知 是 R2， 组 
播 前 枝 报 文 被 R2 和 R4 都 收 到 。 

R4 的 上 游 接口 G0/0/0 听 到 前 枝 报 文 后 ， 根 
据 报 文中 的 RPF 地 址 ， 知 道 报 文 不 是 发 给 自己 
的 ， 而 是 发 给 R4 的 上 游 RPF 邻居 R2， 状 态 保 
持 不 变 (依然 转发 状态 )， 启动 Override 计时 器 。 

Override 计时 器 是 在 共享 网 段 上 ， 当 前 路 由 
器 看 到 另外 一 台 路 由 器 发 送 的 前 除 自己 上 游 
RPF 邻居 的 剪 枝 报 文 而 设置 的 计时 器 。 在 上 
Override 计时 期 间 ， 当 前 路 由 器 如 果 听 到 其 他 路 。” pai 
由 器 的 Join 响应 报 文 ， 则 会 立即 终止 Override 图 7-32 ”前 枝 否 决 和 前 枝 延 迟 计 时 器 
计时 器 ; 否则 发 送 自 己 的 Join 报 文 。 
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R2 在 G0/0/0 接口 收 到 前 枝 报 文 后 ， 端 口 置 为 Pending 状态 ， 并 关联 PrunePending 
计时 器 。 在 PrunePending 超时 前 ， 接 口 为 Pending 状态 并 依然 转发 数据 。 

PrunePending 计时 器 是 同 下 游 接口 关联 的 计时 器 ， 依 据 场景 不 同 ， 处 理 方 式 有 所 不 
同 。 如 果 下 游 接 口 仅 有 一 个 PIM 邻居 且 从 其 收 到 剪 枝 报 文 ， 则 收 到 后 下 游 接 口 立即 被 前 
掉 。 但 如 果 下 游 接 口 有 多 个 邻居 存在 ， 则 要 在 3s 超时 后 ， 接 口才 被 前 除 。( 接 口 保持 在 
Pending 状态 3s， 然 后 进入 Pruned 状态 ) 

PrunePending 计时 器 的 作用 是 在 下 游 接 口 有 多 个 邻居 的 场景 下 ， 阻 止 下 游 接 口 被 某 
个 下 游 邻 居 立 即 剪 掉 而 设计 的 时 间 间 隔 。 

如 果 R2 在 PrunePending 期 间 , 一 直 未 收 到 其 他 前 枝 和 否决 报 文 (可 能 R2 的 下 游 只 有 
一 个 邻居 R3 或 者 其 他 邻居 的 下 游 接口 也 为 空 )，PrunePending 计时 器 3s 超时 后 , 接口 置 
于 Pruned 的 状态 。 组 播报 文 不 再 转发 。 


总 缩 : 

当 一 个 接口 收 到 下 游 发 给 自身 的 剪 枝 报 文 后 ， 根 据 该 接口 邻居 数量 不 同 处 理 流程 不 同 。 

。 ”只 有 一 个 邻居 : 当 接口 只 有 一 个 邻居 的 情况 下 ， 收 到 下 游 的 剪 枝 报 文 后 ， 立 刻 将 该 
接口 变 为 剪 枝 状态 。 

。 多 个 邻居 时 当 接口 有 两 个 或 者 两 个 以 上 的 邻居 时 ， 若 从 其 中 一 个 邻居 收 到 剪 枝 报 
文 ， 则 会 启动 剪 枝 否 决 机 制 。 

e 如果 在 下 游 接 口 有 直 连 接收 者 ， 则 不 论 PIN 邻居 数量 多 少 ,接口 都 不 会 被 前 
除 掉 。 


7.5.5 ”断言 (Assert ) 机 制 


组 播报 文 经 R1、R2 扩散 到 R3 及 R4， 报 文 继续 被 组 播 转 发 后 ， 分 别 被 R3 和 R4 转 
发 到 下 游 接 口 G0/0/1 网 段 ， 相 同 的 组 播报 文 被 转发 了 多 份 ， 这 会 加 重 网 络 负担 ， 同 时 ， 
接收 者 会 收 到 重复 的 多 份 报 文 。 

言 (Assert) 机 制 在 这 种 情况 下 通过 比较 R3、R4 到 组 播 源 的 信息 ， 在 二 者 中 选举 

出 一 台 路 由 器 负责 转发 组 播 数据 到 当前 网 段 ， 这 台 路 由 器 称 为 转发 者 (Forwarder)。 

触发 断言 机 制 的 条 件 是 ， 组 播 转 发 路 由 器 的 下 游 接口 G0/0/1 发 送出 组 播 数据 的 同 
时 ， 又 收 到 同样 的 组 播 数据 ; 或 在 下 游 接口 G0/0/1 收 到 Assert 或 状态 刷新 报 文 。 需 要 说 
明 的 一 点 是 ， 在 Assert 环境 中 ， 只 有 Winner 才 发 送 状 态 刷 新 报 文 。 

7.5.5.1 断言 机 制 的 工作 过 程 

图 7-33 中 ，R3 和 R4 在 下 游 接口 G0/0/1 收 到 彼此 的 组 播 数据 ， 因 此 触发 断言 
机 制 。R3 和 R4 开始 都 认为 自己 是 Winner， 分 别 发 送 Assert 报 文 ， 报 文中 携带 了 两 
者 各 自 路 由 表 中 到 组 播 源 10.1.1.100 的 路 由 的 协议 优先 级 和 度量 值 。R3 和 R4 比较 
自己 和 收 到 的 报 文中 的 协议 优先 级 和 成 本 值 ， 对 比 原则 : 先 比 较 单 播 路 由 协议 优先 
级 ， 值 越 小 越 优 ; 如 果 值 相等 ， 则 比较 到 组 播 源 的 成 本 值 ， 值 越 小 越 优 ， 如 果 值 仍 
然 一 致 , 则 最 后 比较 Assert 报 文 的 源 IP 地 址 和 自己 收 到 Assert 报 文 的 接口 IP 地 址 ， 
地 址 大 者 为 Assert 选举 中 的 Winner， 地 址 小 者 为 Loser。Winner 只 能 有 一 个 ，Loser 
可 以 有 多 个 。 
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Duplicate data 






GO/0/0 


pC] | PC2 
图 7-33 断言 机 制 


图 7-34 是 R4 产生 的 Assert 报 文 ， 其 路 由 表 中 协议 优先 级 为 10， 成 本 是 97。 


Internet Protocol Version 4, Src: 10.1.34.4《10.1.34.4)，Dst: 224.0.0.13 (224.0.0.13) 
9 Protocol Independent Multicast 
0010 .... = Version: 2 
+»... O101 = Type: Assert (5) 
Reserved byte(s): 00 
Checksum: Oxe60a [correct] 
B PIM options 
Group: 229.1.2.3 (229.1.2.3)/32 
source: 10.1.1.100 (10.1.1.100) 
0... .... = RP Tree: False 
-000 0000 0000 0000 0000 0000 0000 1010 = Metric preference: 10 
Metric: 97 


图 7-34 R4 产生 的 Assert 报 文 


比较 结束 后 ，R4 成 为 Winner，R3 成 为 Loser， 作 为 Loser，R3 会 自动 前 除 自 己 的 
下 游 接口 GO/O/1。 接 口 被 前 除 后 ， 立 即 发 送 一 份 前 枝 报 文 给 Winner， 同 时 关联 一 个 断言 
计时 器 (AT) ， 时 长 为 180s。 在 超时 前 ， 接 口 会 一 直 保 持 前 枝 状态 。 


<r4>display pim routing-table fem 

VPN-Instance: public net 

Total 0 (*, G) entry; 1 (S, G) entry 

Abbreviations for FSM states and Timers: 
NI-no info, J-joined, NJ-not joined, P-pruned, 
NP-not pruned, PP-prune pending, W-winner, L-loser, 
F-forwarding, AP-ack pending, DR-designated router, 
NDR-non-designated router, RCVR-downstream receivers, 
PPT-prunepending timer, GRT-graft retry timer, 
OT-override timer, PLT-prune limit timer, 
ET-join expiry timer, JT-join timer, 
AT-assert timer, PT-prune timer 


(10.1.1.100, 229.1.2.3) 
Protocol: pim-dm, Flag: ACT 
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UpTime: 00:04:12 
Upstream interface: Seriall/0/1 
Upstream neighbor: 10.1.24.2 
RPF prime neighbor: 10.1.24.2 
Join/Prune FSM: [F] 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/1 
Protocol: pim-dm, UpTime: 00:04:12, Expires: never 
DR state: [NDR] 
Join/Prune FSM: [NI] 
Assert FSM: [W, AT Expires: 00:02:54] 
Winner: 10.1.34.4, Pref: 10, Metric: 97 


R4 为 Assert Winner， 接 口 G0/0/1 当前 状态 为 Winner， 并 且 Assert Timer 会 在 174s 
后 超时 。 


<R3>display pim routing-table fsm 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 


Abbreviations for FSM states and Timers: ， 
NI-no info, J-joined, NJ-not joined, P-pruned, 
NP-not pruned, PP-prune pending, W-winner, L-loser, 
F-forwarding, AP-ack pending, DR-designated router, 
NDR-non-designated router, RCVR-downstream receivers, 
PPT-prunepending timer, GRT-graft retry timer, 
OT-override timer, PLT-prune limit timer, 
ET-join expiry timer, JT-join timer, 
AT-assert timer, PT-prune timer 


(10.1.1.100, 229.1.2.3) 
Protocol: pim-dm, Flag: ACT 
UpTime: 00:04:19 
Upstream interface: GigabitEthernet0/0/0 
Upstream neighbor: 10.1.23.2 
RPF prime neighbor: 10.1.23.2 
Join/Prune FSM: [P, PLT Expires: 00:03:25] 
Downstream interface(s) information: None 


FSM information for non-downstream interfaces; 
1: GigabitEthernet0/0/0 
Protocol: pim-dm 
DR state: [DR] 
Join/Prune FSM: [NI] 
Assert FSM: [L, AT Expires: 00:02:55] 
Winner: 10.1.23.2, Pref: 10, Metric: 49 
2: GigabitEthernet0/0/1 
Protocol: pim-dm 
DR state: [NDR] 
Join/Prune FSM: [NI] 
Assert FSM: [L, AT Expires: 00:02:55] 
Winner: 10.1.34.4, Pref: 10, Metric: 97 


从 上 面 输出 可 以 看 到 ，R3 为 Loser， 并 且 Assert Timer 会 在 2min55s 后 超时 ， 超 时 
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后 ， 断 言 机 制 会 再 次 发 生 。 

R4 从 下 游 接口 收 到 前 枝 报 文 后 ， 启 动 prune pending timer。 在 3s 内 ， 以 太 网 段 如 果 
没有 前 枝 和 否决 〈Join override) ， 则 Winner 的 下 游 接 口 将 被 Loser 剪除 。 

7.5.5.2 前 梳 否决 机 制 

R5 是 R3 和 R4 的 下 游 路 由 器 ，R5 的 上 游 邻 居 R3 和 R4 在 以 太 网 段 上 发 生 断 言 机 
制 时 ，R5 一 直 “ 侦 听 ”R3 和 R4 的 选举 过 程 的 Assert 报 文 。 它 比较 R3 和 R4 的 Assert 
报 文 ， 计 算出 Winner 是 R4， 同 时 也 听 到 R3 Loser 向 Winner 发 的 前 枝 报 文 ， 所 以 如 果 
R5 有 下 游 邻 居 或 下 游 的 接收 者 ， 则 R5 会 发 送 Join 报 文 给 Winner， 用 PIM Join 报 文 来 
“否决 ”R4 上 由 于 收 到 前 枝 〈Prune) 报 文 而 在 3s 后 的 前 枝 行为 。 

但 如 果 有 多 个 下 游 邻居 ， 如 R5 和 R6 收 到 前 枝 报 文 后 ， 二 者 均 会 发 送 Join 报 文 来 
否决 前 枝 ，Join 报 文 要 在 2.5s (override interval) 时 间 内 完成 ， 如 果 R6 听 到 R5 发 送 的 
join， 则 R6 就 不 再 发 送 join 报 文 ， 避 免 重复 发 送 join 报 文 。 

R5 路 由 器 的 行为 : 

1. 计算 出 Assert Winner， 并 向 其 发 送 Join 报 文 ; 

2. 修改 自己 的 Upstream Neighbor， 指 向 Assert Winner。 

R5 在 Assert 机 制 发 生前 ，RPF 邻居 是 R3， 那 么 ， 在 Assert 机 制 发 生 后 ，RPF 邻居 
就 要 调整 为 “选举 ”出 来 的 Winner。 因 为 Winner 是 该 以 太 网 段 唯一 的 组 播 转 发 路 由 器 ， 
所 以 组 播 流 也 应 该 从 当前 Rs 的 “新 ”RPF 邻居 传 出 。 


[r5]display pim routing-table 
VPN-Instance: public net 
Total 1 (*, G) entry; 1 (S, G) entry 


(*, 229.1.2.3) 
Protocol: pim-dm, Flag: WC 
UpTime: 00:50:31 
Upstream interface: NULL 
Upstream neighbor: NULL 
RPF prime neighbor: NULL 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/0 
Protocol: static, UpTime: 00:50:31, Expires: never 


(10.1.1100, 229.1.2.3) 
Protocol: pim-dm, Flag: ACT 
UpTime: 00:02:13 
Upstream interface: GigabitEthemet0/0/1 
Upstream neighbor: 10.1.34.3 # 根 据 RPF 表 计 算得 出 的 上 游 邻居 
RPF prime neighbor: 10.1.34.4# 根 据 断 言 消息 计算 得 出 的 RPF 邻居 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/0 
Protocol: pim-dm, UpTime: 00:02:13, Expires: - 
# 默 认 下 ， 上 游 邻 居 和 RPF 邻居 应 该 一 致 ， 也 有 可 能 会 不 一 致 
如 果 R3 的 下 游 接 口 所 关联 的 Assert 定时 器 超时 后 ，R3 的 下 游 接 口 恢 复 转 发 状态 ， 


致 Assert 机 制 重新 发 生 。 
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7.5.5.3 ”Assert Cancel| 报 文 
Assert 报 文 是 负责 携带 “路 由 协议 优先 级 和 度量 ”的 报 文 ， 如 果 度 量 值 是 无 限 大 ， 报 文 
所 起 到 的 用 途 是 表明 当前 路 由 器 此 时 不 再 是 Winner， 这 是 “角色 ”快速 让 出 的 一 种 办 法 。 
图 7-35 中 ，R4 是 Winner， 若 其 上 游 RPF 接口 Down 掉 或 RPF 接口 随 拓 扑 的 改变 
而 变 成 当前 的 G0/0/1， 而 此 时 Loser 的 下 游 接口 还 处 于 剪 枝 状 态 ， 等 待 该 网 段 上 新 的 转 
发 路 由 器 出 现 需要 Assert 计时 器 超时 ， 这 样 网 络 中 组 播 流量 最 坏 情 况 下 会 中 断 180s。 为 
了 解决 这 个 问题 ， 引 入 了 Assert Cancel 报 文 。 当 Winner 的 上 游 接 口中 断 或 者 其 他 原因 
导致 RPF 接口 切换 到 原来 的 下 游 ，G0/0/1 接口 这 时 会 发 送 Assert Cancel 消息 ， 其 中 把 
metric 置 为 “无 穷 大 ” 其 他 Loser 路 由 器 看 到 这 个 “无 穷 大 ”度量 ， 立 即 认为 自己 是 
Assert Winner， 并 把 接口 置 于 转发 状态 ， 并 立即 发 送 Assert 报 文 ， 使 网 络 更 快速 收敛 。 


Source 





S1/0/1 


G0/0/1 GO/0/1 


PC1 | Peg 
图 7-35 重复 Join 前 枝 及 前 枝 延迟 


图 7-36 所 示 是 Assert Cancel 报 文 。 


internet Protocol Version 4, src: 10.1,34.4 (10,1.34.4), Dst:; 224.0.0,13 (224.0.0,13) 
白 Prorocol Independent MU 1ticast 
0010 .... = Version: 2 
.... Oi01 = Type: Assert (5) 
Reserved byte(s): 00 
Checksum: 0x6676 [correct] 
SH PIM options 
Group: 229.1.2.3 (229.1.2.3)/32 
source: 10.1.1.100 (10.1.1.100) 
0... .... = RP Tree: False 
.111 A111 i111 lliliti 1111 11il1 1111 1111 = Metric preference: 2147483647 
Metric: 4294967295 


图 7-36 Assert Cancel 报 文 
示例 : 点 到 点 链 路 上 的 断言 机 制 ( Assert ) 


图 7-37 中 ，R2 和 R4 这 段 路 径 是 点 到 点 链 路 ， 在 R2 和 R4 上 S1/0/1 是 非 RPF 接口 ， 
R2 和 R4 从 其 各 自 的 RPF 接口 收 到 的 组 播报 文 ， 会 继续 转发 给 下 游 接 口 S1/0/1。 
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图 7-37 点 到 点 链 路 断言 机 制 


在 R2 和 R4 相连 的 点 到 点 链 路 上 (如 图 7-38 所 示 ), 发 生 了 相同 数据 的 “碰撞 ”( 源 
IP 是 10.1.1.100、 目 标 IP 地 址 是 229.1.2.3 的 组 播报 文 分 别 由 R2 和 R4 转发 到 同样 的 链 
路 上 )。 彼 此 收 到 对 方 发 出 的 组 播 数 据 ， 触 发 断言 机 制 ，R2 和 R4 分 别 发 送 Assert 报 文 ， 
含 各 自 到 源 的 协议 优先 级 和 度量 值 。 


田 Point-to-Point Protocol 
田 Internet Protocol Version 4, Src: 10.1.24.4 (10.1.24.4), Dst: 224.0.0.13 (224.0.0.13) 
日 Prorocol Independent Multicast 
0010 .... = Version: 2 
.。0101 = Type: Assert (5) 
Reserved byte(s): 00 
Checksum: Oxe638 [correct] 
BPIM options 
Group: 229.1.2.3 (229.1.2.3)/32 
source: 10.1.1.100 (10.1.1.100) 
0... .... = RP Tree: False 
.000 0000 0000 0000 0000 0000 0000 1010 = Metric Preference: 10 
Metric: 51 


图 7-38 ”点 到 点 链 路 上 R4 产生 的 Assert 报 文 


一 番 比 较 之 后 ，R4 在 该 链 路 上 成 为 Loser， 前 除 自 己 的 下 游 接 口 S1/0/1， 关 联 “ 断 
言 计 时 器 ”， 并 立即 向 S1/0/1 发 送 前 枝 报 文 , 报 文中 RPF 邻居 地 址 为 R4 Winner 接口 卫 。 


由 Internet Protocol Version 4, Src: 10,1.24.4 (10.1.24.4), Dst: 224.0.0.13 (224.0.0.13) 
日 Protocol Independent Multicast 
0010 .... = Version: 2 
.. O011 = Type: Join/prune (3) 
Reserved byte(s): 00 
Checksum: Oxc49¢c [correct] 
B PIM options 
Upstream-neighbor:; 10.1.24.2 {10.1,24.2) 
Reserved byte(s): 00 
Num Groups: 1 
Holdtime: 180s 
B Group 0: 229.1.2.3/32 
Num Joins: 0 
Num Prunes: 1 
IP address: 10.1.1.100/32 


图 7-39 点 到 点 链 路 上 R4 产生 的 剪 枝 报 文 
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而 R2 在 成 为 Winner 后 ， 收 到 R4 Loser 发 出 的 剪 枝 报 文 〈《 如 图 7-39 所 示 )， 因 为 点 
到 点 链 路 上 没有 多 余 邻 居 ， 不 需 等 待 Prune Pending Timer 超时 ， 所 以 收 到 前 梳 报 文 后 ， 
接口 被 立即 剪除 。 


<R2>display pim routing-table fm 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 


Abbreviations for FSM states and Timers: 
NI-no info, J-joined, NJ-not joined, P-pruned, 
NP-not pruned, PP-prune pending, W-winner, L.-loser, 
F-forwarding, AP-ack pending, DR-designated router, 
NDR-non-designated router, RCVR-downstream receivers, 
PPT-prunepending timer, GRT-graft retry timer, 
OT-override timer, PLT-prune limit timer, 
ET-join expiry timer, JT-join timer, 
AT-assert timer, PT-prune timer 


(10.1.1.100, 229.1.2.3) 
Protocol: pim-dm, Flag: ACT 
UpTime: 00:00:43 

Upstream interface: Seriall/0/0 
Upstream neighbor: 10.1.12.1 
RPF prime neighbor: 10.1.12.1 
Join/Prune FSM: [P, PLT Expires: 00:02:47] 

Downstream interface(s) information: None 


FSM information for non-downstream interfaces: 
1: GigabitEthemet0/0/0 
Protocol: pim-dm 
DR state: [NDR] 
Join/Prune FSM: [P, PT Expires: 00:02:44] 
Assert FSM: [NI] 
2: Seriall/0/0 
Protocol: pim-dm 
DR state: [DR] 
Join/Prune FSM: [NI] 
Assert FSM: [NJ] 
3: Seriall/0/1 
Protocol: pim-dm 
DR state: [NDR] 
Join/Prune FSM: [P, PT Expires: 00:02:14] 
, Assert FSM: [W, AT Expires: 00:02:17] 
Winner: 10.1.24.2, Pref: 10, Metric: 49 
# 


<R4>display pim routing-table fsm 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 
Abbreviations for FSM states and Timers: 
NI-no info, J-joined, NJ-not joined, P-pruned, 
NP-not pruned, PP-prune pending, W-winner, L-loser, 
F-forwarding, AP-ack pending, DR-designated router, 
NDR-non-designated router, RCVR-downstream receivers, 
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PPT-prunepending timer, GRT-graft retry timer, 
OT-override timer, PLT-prune limit timer, 
ET-join expiry timer, JT-join timer, 

AT-assert timer; PT-prune timer 


(10.1.1.100, 229.1.2.3) 
Protocol: pim-dm, Flag: ACT 
UpTime: 00:00:55 
Upstream interface: GigabitEthermetO/0/1 
Upstream neighbor: 10.1.34.3 
RPF prime neighbor: 10.1.34.3 
Join/Prune FSM: [P, PLT Expires: 00:03:21] 
Downstream interface(s) information: None 


FSM information for non-downstream interfaces: 
1: GigabitEthermet0/0/1 
Protocol: pim-dm 
DR state: [DR] 
Join/Prune FSM: [NT] 
Assert FSM: [L, AT Expires: 00:02:51] 
Winner: 10.1.34.3, Pref: 10, Metric: 50 
2: Seriall/0/1 
Protocol: pim-dm 
DR state: [DR] 
Join/Prune FSM: [NT] 
Assert FSM: [L, AT Expires: 00:02:51] 
Winner: 10.1.24.2, Pref: 10, Metric: 49 


从 上 面 输出 中 ， 可 看 出 R2 和 R4 各 自 计 算出 的 Winner， 及 Winner 的 协议 优先 级 和 
成 本 。 


7.6 PIM Sparse Mode 


PIM SM 多 部 署 在 组 播 成 员 分 布 稀疏 分 散 、 规 模 相 对 较 大 的 WAN 网 络 环境 中 。 它 
区 别 于 PIM DM 的 是 ，SM 使 用 PULL 的 方式 来 建 组 播 树 ， 接 收 者 需 在 控制 平面 主动 向 
树 根 建 树 ， 组 播 流 才能 给 接收 者 ， 组 播 流 不 会 像 DM 一 样 主动 扩散 到 接收 者 的 网 络 ， 所 
以 SM 相 较 于 DM 会 节省 带宽 。 

PIM SM 中 , 组 播 网 络 上 的 接收 者 和 组 播 源 彼此 并 不 知道 对 方 是 否 存在 及 所 在 位 置 ， 
所 以 SM 中 引入 Rendezvous Point (RP) 作为 网 络 的 核心 ， 接 收 者 要 先 连 到 以 RP 为 根 的 
组 播 树 ， 当 组 播 源 活跃 时 ， 组 播 流 量 经 RP 转发 给 下 游 接收 者 。 在 SM 中 ， 不 论 是 SPT 
还 是 RPT, 树 的 构建 都 是 下 游 路 由 器 显 式 地 向上 游 路 由 器 发 送 Join 请 求 来 完成 。 组 播 数 
据 最 终 通过 SPT 树 转 发 给 RP，RP 再 沿 RPT 树 转发 给 接收 者 。 

PIM-SM 中 ， 建 组 播 转发 树 较 DM 复杂 ， 包 括 三 个 阶段 : 

阶段 1， 接 收 者 所 在 路 由 器 (DR) 向 RP 发 (*,G) Join 建 共享 树 ; 

阶段 2，RP 在 收 到 注册 报 文 后 ， 向 组 播 源 转发 (S,G) Join 建 SPT 树 ; 

阶段 3， 收 到 数据 的 最 后 一 跳 路 由 器 〈DR) 向 组 播 源 建 SPT 树 。( 此 过 程 可 选 ， 上 加 
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7.6.1 SPT 和 RPT 树 对 比 


PIM SM 中 用 到 以 下 2 种 类 型 树 : SPT 和 RPT 树 。 

SPT (Shortest Path Tree) 是 以 组 播 源 为 树 根 ， 连 接 组 播 源 和 组 播 接收 者 的 分 发 树 ， 
彼此 之 间距 离 短 ， 转 发 延迟 低 。 

RPT (Root-Path Tree) 是 以 RP 为 树 根 ， 连 接 所 有 组 员 的 分 发 树 。 由 于 RP 位 置 可 能 
不 是 最 优 , 所 以 组 播 源流 出 的 组 播 数 据 经 RP 转发 给 接收 者 时 , 会 因 次 优 路 径 问 题 而 致 
转发 延迟 较 大 ， 相 比 于 “SPT 的 每 个 组 播 源 和 组 就 需要 一 个 (S,G) 条 目 ， 而 RPT 仅 需 
一 条 (*,G) 条 目 就 可 转发 所 有 来 自 不 同 源 的 组 播 流量 ， 内 存 开 销 消 耗 相对 减少 。(*,G) 
中 * 代 表 任 意 源 。 

7.6.2 ”RP 控制 


7.6.2.1 RP 的 作用 

RP (Rendezvous Point) 是 PIM SM 网 络 中 一 台 “ 核 心 ” 路 由 器 ， 它 的 位 置 建 
议 放 在 网 络 的 核心 ， 在 组 播 数 据 转 发 过 程 中 ， 它 起 到 的 是 “汇聚 ”的 作用 ， 汇 聚 
组 播 接收 者 的 加 入 / 剪 枝 请 求 和 组 播 源 的 组 播 数据 。 当 某 个 网 段 的 DR 路 由 器 通过 
IGMP 协议 了 解 该 网 段 上 有 组 播 接收 者 时 ， 就 会 向 RP 发 送 一 个 (*,G) 的 加 入 报 
文 , 用 〈*#,G) Join 表示 ， 表 明 本 地 需要 接收 来 自任 何 组 播 源 的 、 发 往 组 播 组 G 的 
组 播 数 据 。 

在 PIM SM 中 ， 每 一 个 PIM 组 播 组 都 需要 一 个 RP 地 址 ， 这 个 地 址 用 来 当 作 组 播 组 
相应 的 组 播 分 发 树 的 树 根 , 用 来 连接 SPT 树 和 RPT 树 。 在 网 络 上 的 任何 一 台 PIM SM 路 
由 器 都 需要 知道 组 播 组 所 需要 的 RP 地 址 。 

网 络 上 每 台 PIM 路 由 器 内 均 有 一 张 表 RP-Info, 记录 组 播 组 地 址 和 RP 地 址 的 对 应 关 
系 , 任何 组 播 路 由 器 都 会 根据 表 选 择 出 组 播 组 所 对 应 的 唯一 的 RP。 当 组 播 源 活跃 时 ， 向 
已 知 的 RP 发 起 注册 。 当 接收 者 出 现时 ， 向 RP 发 送 建 树 请 求 。 组 播 数 据 经 RP 在 SPT 和 
RPT 间 转 发 ，PIM SM 离 不 开 RP， 如 果 不 知道 RP 的 位 置 ，PIM SM 路 由 器 将 不 能 正常 
工作 。RP 因 其 作用 而 具备 如 下 特点 : 

RP 是 PIM SM 的 核心 、 瓶 颈 ， 且 易 有 单 点 故障 ; 

路 由 器 间 通 告 RP 会 使 网 络 增加 负荷 ， 配 置 维 护 的 复杂 性 相应 增加 ; 

RP 是 接收 者 所 加 入 的 RPT 树 的 树 根 ， 是 源 所 建 起 的 SPT 树 的 叶子 路 由 器 ; 

RP 未 必 处 于 源 和 接收 者 路 由 器 之 间 的 最 优 路 径 上 ， 所 以 经 RPT 树 路 径 未 必 是 
最 优 路 径 。 

使 组 播 域 中 每 台 路 由 器 都 知道 RP 的 信息 , 按 RP 部 署 维护 的 复杂 性 和 方式 ， 可 分 为 
静态 RP 和 动态 RP 部 署 。 

7.6.2.2 静态 RP 部 署 

在 小 企业 或 网 络 结构 简单 的 环境 建议 使 用 静态 RP 的 部 署 方 案 。 

静态 RP 要 求 网 络 每 台 路 由 器 要 由 工程 师 手 工 添加 RP 和 组 的 对 应 关系 。 
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Source 


图 7-40 静态 RP 部 署 


示例 : 
图 7-40 中 ，R2 的 Loopback0〈10.1.2.2) 接口 用 作 组 播 组 范围 229.1.2.0 一 229.1.2.255 


的 RP， 全 网 R1 到 R6 的 每 台 路 由 器 上 均 要 了 解 到 这 个 RP 信息 。 
# 为 每 台 路 由 器 定义 静态 RP， 下 面 以 R1 为 例 
<R1> system-view 
[R1]acl name myacl 
[Rl-acl-adv-myacl]rule permit ip destination 229.1.2.0 0.0.0.255 
[Rl-acl-adv-myacl]quit 
[Rljmulticast routing-enable 
[Rijpim 
[R1-pim]static-rp 10.1.2.2 acl-name myacl preferred 


其 他 PIM 路 由 器 也 做 同样 的 静态 配置 ， 此 处 略 。 

说 明 : 

1) 如 果 配 置 的 静态 RP 地 址 是 本 机 状态 为 UP 的 菜 个 接口 地 址 ， 本 机 就 作为 静态 RP。 
作为 静态 RP 的 接口 不 必 使 能 PIN 协议 。 

2) 如 果 没 有 指定 ACL， 则 配置 的 静态 RP 为 所 有 组 播 组 224.0.0.0/4 服务 ， 如 果 指 定 了 
ACL， 所 配置 的 静态 RP 只 为 该 ACL 所 许可 的 组 播 组 服务 。 通 过 重复 执行 该 命令 可 以 配置 最 
多 50 个 静态 RPR， 但 同一 个 ACL 不 能 对 应 到 多 个 静态 RR。 如果 不 引用 ACL， 则 只 能 配置 一 
个 静态 RP。 

3) 如 果 配 置 静态 RP 的 命令 中 未 携带 preferred 关键 字 ， 则 设备 优先 选择 BSR 机 制 选 出 
的 动态 RP。 即 如 果 网 络 中 未 配置 动态 RP 或 动态 RP 失效 ， 静 态 RP 才能 生效 。 而 如 果 配 置 
静态 RP 的 命令 中 携带 preferred 关键 字 ， 则 设备 优先 选择 静态 RP。 

4) 重复 执行 此 命令 , 会 配置 多 个 静态 RP, 如 果 存 在 多 个 静态 RP 为 某 个 组 服务 的 情况 ， 
则 选择 IP 地 址 最 大 的 RP 为 该 组 服务 。 


示例 : 
当前 路 由 器 上 既 有 静态 RP〈10.1.2.2) 和 组 229.1.2.X 的 对 应 关系 ， 又 有 动态 RP 
(10.1.3.3) 和 组 229.1.2.X 的 对 应 ， 则 当前 路 由 器 为 组 播 组 229.1.2.3 选择 使 用 的 RP 是 哪 


[Huaweilacl name myacjl 

[Huawei-acl-adv-myacljrule permit ip destination 229.1.2.0 0.0.0.255 
[Huawei-acl-adv-myacllquit 

[huaweijpim 

[huawei-pimjstatic-rp 10.1.2.2 2001 

[Huawei-pim]q 
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[huaweildisplay pim rp-info 
VPN-Instance: public net 
PIM-SM BSR RP Number:1 
Group/MaskLen: 229.1.2.0/24 
RP: 10.1.3.3 
Priority: 0 
Uptime: 00:08:49 
Expires: 00:01:41 
PIM SM static RP Number:1 
Static RP: 10.1.2.2 (local) 
Configured ACL: 2001 
# 上 面 的 RP-Info 中 既 有 动态 映射 ， 又 有 静态 映射 
[huaweildisplay pim rp-info 229.1.2.3 
VPN-Instance: public net 
BSR RP Address is: 10.1.3.3 
Priority: 0 
Uptime: 00:09:16 
Expires: 00:02;29 
Static RP Address is: 10.1.2.2 
Configured ACL: 2001 
RP mapping for this group is: 10.1.3.3 
# 没 有 配置 preferred 关键 词 ，10.1.3.3 是 当前 选 出 的 RP 
# 继 续 修改 当前 配置 ， 添 加 preferred 关键 词 
四 
[huaweilpim 
[huawei-pimlstatic-rp 10.1.2.2 2001 preferred 
[huawei-pim]q 
[huawei] 
[huaweildisplay pim rp-info 
VPN-Instance: public net 
PIM-SM BSR RP Number:] 
Group/MaskLen: 229.1.2.0/24 
RP: 10.1.3.3 (local) 
Priority: 0 
Uptime: 00:18:07 
Expires: 00:01:39 
PIM SM static RP Number:1 
Static RP: 10.1.2.2 (preferred) 
Configured ACL: 2001 
[huawei] 
[huaweildisplay pim rp-info 229.1.2.3 
VPN-Instance: public net 
BSR RP Address is: 10.1.3.3 
Priority: 0 
Uptime: 00:18:13 
Expires: 00:01:33 
Static RP Address is: 10.1.2.2 (preferred) 
Configured ACL: 2001 
RP mapping for this group is: 10.1.2.2 
[huawei] 
#RP 是 10.1.2.2 


静态 配置 方案 相 比 于 动态 配置 方案 : 
。 配置 容易 ， 但 部 署 复 杂 ， 手 动工 作 量 大 ; 
。 ”不 具备 扩展 性 ， 当 网 络 拓扑 发 生变 化 时 ， 不 能 及 时 更 新 组 和 RP 的 对 应 关系 ; 
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。 ”适用 在 简单 拓扑 或 小 型 网 络 中 部 署 时 ， 或 当 网 络 拓扑 发 生变 化 时 对 RP 不 敏感 
的 网 络 环境 。 


7.6.3 ”动态 RP 部 署 


动态 RP 的 设计 在 中 大 型 网 络 中 要 求 比较 多 ， 好 处 是 当 网 络 拓扑 发 生变 化 的 时 候 ， 
RP 和 组 的 对 应 关系 会 自动 调整 ,保证 网 络 的 元 余 性 。 目 前 动态 RP 协议 是 PIMv2 使 用 的 
BSR【〔 自 举 协议 )。 使 用 BSR 机 制 ， 定 义 组 和 RP 的 映射 并 快速 地 分 发 到 域内 PIM 路 由 
器 ， 如 果 当 前 RP 不 可 达 ， 可 以 使 用 备份 RP。 如 图 7-41 所 示 。 


C-RP1 C-BSR1 






Source 


C-BSR2 C-RP2 
图 7-41 BSR 机 制 


在 BSR 协议 中 ， 定 义 了 两 种 角色 的 设备 ， 一 种 是 Candidate-RP， 简 称 C-RP; 另 一 
种 是 Candidate-BSR， 简 称 C-BSR。 二 者 都 可 以 定义 多 台 ， 以 提供 元 余 备 份 能 力 。 

1. BSR 

在 一 个 PIM-SM 域内 ， 可 能 存在 多 台 设 备 配置 为 C-BSR, 但 在 同一 时 刻 只 能 有 一 台 
设备 成 为 BSR。BSR 的 选举 是 通过 PIMv2 的 Boostrap 报 文 协商 选举 出 来 的 ， 报 文中 带 
有 BSR 的 优先 级 和 BSR 地 址 信息 。 图 7-42 是 BSR 报 文 ， 从 中 可 知 ，IP 报 文 源 下地 
址 为 10.1.23.2，BSR 地 址 是 10.1.2.2，Hash 掩 码 是 30 位 ，BSR 优先 级 是 0，RP- 映 射 
(RP-set) = { 10.1.2.2，224.0.0.0/4 } 。 


由 Internet Protocol Version 4, src: 10.1.23.2 (10.1.23.2), Dst: 224.0.0.13 (224.0.0.13) 
B Protocol Independent Multicast 
0010 .... = Version: 2 
-...。0100 = Type: Bootstrap (4) 
Reserved byte(s): 00 
Checksum: Ox81d0 [correct] 
BPIM options 
Fragment tag: 0x3f8d 
Hash mask len: 30 
BSR priority: 0 
BSR: 10.1.2.2 (10.1.2.2) 
电 Group 0: 224.0.0.0/4 
RP count: 1 
FRP count: 1 
Holdtime: 150s 
Priority: 0 
Rp O04 1051.2.2 


图 7-42 ”BSR 报 文 


任何 一 台 C-BSR 路 由 器 可 工作 在 两 种 状态 之 一 :“ 候 选 BSR” 状 态 (C-BSR) 或 “已 
选举 的 BSR” 状 态 。 路 由 器 启动 时 ， 初 始 状态 都 是 “候选 BSR” 状态, 在 此 状态 下 ，130s 
BSR 超时 计时 器 启动 。 在 此 期 间 ， 若 未 听 到 任何 其 他 “更 优 ” 的 C-BSR 的 报 文 ， 超 时 


i 460 


| 第 七 章 Mutticast | 


后 ， 当 前 C-BSR 状态 转换 为 “已 选举 的 BSR” 状 态 ， 即 代表 当前 没有 其 他 更 优 的 C-BSR 

路 由 器 ， 自 己 是 域内 唯一 的 BSR。BSR 靠 泛 洪 方 式 通 告 自身 的 报 文 ， 其 泛 洪 过 程 上 有 如 

OSPF 通告 LSA， 是 逐 跳 的 泛 洪 过 程 ， 任 何 PIMvV2 路 由 器 都 能 听 到 BSR 泛 洪 的 报 文 。 
判定 哪 台 C-BSR 路 由 器 更 优 依据 如 下 : 

。 先 比 较 BSR 报 文中 的 优先 级 数值 ”数值 越 大 越 优 先 ; 

。 若 优先 级 数值 一 样 ， 则 比较 BSR 报 文 中 的 BSR 的 耳 地 址 ， 数 值 越 大 越 优 先 。 

但 若 在 BSR 计时 器 超时 前 收 到 一 份 “ 更 优 ?BSR 报 文 , 则 产生 那 份 BSR 报 文 的 C-BSR 
路 由 器 被 认定 为 “更 优 ” 的 BSR 路 由 器 。 同 时 ， 当 前 C-BSR 对 收 到 的 “更 优 ”BSR 报 
文 ， 本 地 做 如 下 处 理 : 

。 本 地 BSR 超时 计时 器 重 置 ; 

。 收 到 的 “更 优 ”BSR 报 文 被 转发 出 所 有 其 他 有 PIM 邻居 的 接口 ， 自 己 不 再 通告 

自己 的 BSR 报 文 ; 

e ”把 收 到 的 BSR 报 文中 的 RP- 映 射 复制 到 本 地 RP-Info 中 。 

如 若 一 台 BSR 路 由 器 已 处 于 “已 选举 的 BSR 状态 ” 已 选举 为 BSR， 则 它 负责 周期 
产生 BSR 报 文 ， 其 中 包含 RP- 映 射 。 如 果 从 另外 一 台 路 由 器 收 到 BSR 报 文 ， 优 先 级 更 
高 ， 则 不 再 产生 自己 的 BSR 报 文 ， 只 转发 已 知 的 更 优 BSR 的 那 份 报 文 ， 并 把 自己 的 状 
态 调整 为 “候选 BSR” 状 态 ;， 和 否则 ， 丢 掉 BSR 报 文 。 

# 在 任何 路 由 器 上 使 用 以 下 命令 查看 已 知 的 BSR 

<huawei>display pim bsr-info 

VPN-Instance: public net 

Elected AdminScoped BSR Count: 0 

Elected BSR Address: 10.1.2.2 

Priority: 0 
Hash mask length: 30 
State: Elected 
Scope: Not scoped 
Uptime: 00:37:59 
Next BSR message scheduled at: 00:00:27 
C-RP Count: 1 . 
Candidate AdminScoped BSR Count: 0 
Candidate BSR Address: 10.1.2.2 
Priority: 0 
Hash mask length: 30 
State: Elected 
Scope: Not scoped 
Wait to be BSR: 0 

设计 建议 : 

BSR 收集 到 各 个 C-RP 的 信息 后 ， 组 合成 为 RP- 映 射 。 然 后 将 RP- 映 射 信息 封装 到 
BSR 报 文 内 向 PIM 邻居 泛 洪 此 消息 ， 使 PIM 域内 的 RP 信息 是 相同 的 。 这样 ,任何 组 播 
组 在 不 同 的 设备 上 都 可 以 选择 出 相同 的 RP 地 址 。 建 议 C-BSR 至 少 2 台 ， 以 避免 单 点 故 
障 ， 可 和 C-RP 一 起 部 署 在 同一 台 设 备 上 。 

2. C-RP 

C-RP 可 以 有 多 个 ， 每 个 C-RP 定义 自己 的 一 个 接口 IP 地 址 和 多 个 组 播 地 址 范围 的 
对 应 关系 。 每 一 对 IP 地 址 和 组 播 地 址 范围 的 对 应 关系 都 叫做 RP 映射 。 多 个 C-RP 的 目 
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的 是 为 了 增加 网 络 的 健壮 性 、 元 余 性 。 如 果 一 台 C-RP 失效 ,或 到 C-RP 的 链 路 故障 ， 其 

他 备 选 的 C-RP 依然 能 够 为 相应 的 组 播 组 提供 服务 。 
当 作 为 C-RP 的 PIMv2 路 由 器 收 到 泛 洪 过 来 的 BSR 报 文 后 , 从 中 了 解 到 BSR 地 址 。 

之 后 , 每 个 C-RP 会 以 单 播 的 方式 把 C-RP 上 定义 的 RP- 映 射 发 给 这 个 知道 的 唯一 的 BSR 

路 由 器 。 若 C-RP 不 知道 BSR 地 址 ， 则 不 会 产生 RP 通告 ， 当 BSR 收 到 C-RP 的 映射 之 

后 ， 放 到 Cache 中 ， 并 将 收集 到 的 RP 映射 放 到 周期 性 的 BSR 报 文中 ， 通 告 出 去 。 
<R2>display pim rp-info 

VPN-Instance: public net 

PIM-SM BSR RP Number:1 

Group/MaskLen: 224.0.0.0/4 

RP: 10.1.2.2 (local) 
Priority: 0 
Uptime: 00:43:29 
Expires: 00:02:17 
C-RP 信息 以 单 播 形式 通告 : 
。 C-RP 通告 的 单 播报 文中 包括 C-RP 的 IP 地 址 信息 、 需 要 服务 的 组 播 组 地 址 范 
围 (组 播 IP 与 掩 码 长 度 ) 及 C-RP 优先 级 。 

。  C-RP 以 60s 周期 向 BSR 单 播发 送 C-RP 消息 ， 以 免 C-RP 信息 在 BSR 上 超时 。 

建议 设计 : 

。  C-RP 可 以 设置 多 个 分 散在 PIM 域 的 任何 设备 上 ， 也 可 以 集中 在 一 台 PIM 设备 

上 , 而 且 C-RP 部 署 与 BSR 部 署 没 有 关联 。 但 实际 设计 时 , 多 将 C-RP 和 C-BSR 
同时 部 署 在 一 台 设备 上 。 

3. 普通 的 PIMv2 ( 非 BSR ) 路 由 器 

任何 PIMV2 的 路 由 器 ， 也 包括 C-RP 路 由 器 ， 收 到 目标 组 地 址 224.0.0.13 的 BSR 报 
文 后 ， 并 非 一 味 接收 ， 而 是 对 其 先 执行 RPF 检查 。 只 有 通过 RPF 检查 的 BSR 报 文才 能 
被 接收 ， 并 继续 转发 给 其 他 PIM 邻居 。RPF 检查 是 接收 路 由 器 对 BSR 报 文中 的 BSR 地 
址 的 检查 , 检查 的 目的 是 避免 BSR 报 文 的 
环 路 , 使 泛 洪 过 程 以 BSR 为 树 根 , 远离 树 
根 的 路 径 去 通告 。 

示例 : 

图 7-43 中 ，R3 是 网 络 中 的 BSR， 其 
地 址 为 10.1.3.3， 处 于 OSPF Area0 中 ， 每 
条 链 路 都 是 等 成 本 的 ， 其 他 路 由 器 学 习 到 
网 络 中 的 BSR 信息 。 试 说 明 每 台 路 由 器 
BSR 报 文 的 接收 过 程 。 

分 析 过 程 : 

R3 向 所 有 PIM 邻居 泛 洪 自己 的 BSR 
报 文 。 泛 洪 期 间 ， 报 文 内 容 不 变化 ， 报 文 
流出 的 接口 地 址 是 BSR 报 文 的 源 耳 地 址 。 
R3 的 泛 洪 如 图 7-43 所 示 ，R1 收 到 报 文 源 IP 地 址 是 10.1.23.3 的 BSR 报 文 ，R5 收 到 源 
IP 地 址 是 10.1.35.3 的 BSR 报 文 。BSR RPF 检查 规则 :“ 根 据 BSR 报 文 中 BSR 地 址 计算 


- 





图 7-43 ”BSR 泛 洪 及 RPF 检查 过 程 
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得 出 的 RPF 邻居 必须 等 于 BSR 报 文 瑟 头 中 的 源 瑟 地址 , RPF 检查 才 通 过 , 即 路 由 器 仅 
接收 RPF 邻居 通告 的 BSR 报 文 ” 所 以 图 7-43 中 ，R5 和 R1、R2 对 收 到 的 BSR 报 文中 
地 址 10.1.3.3 执行 RPF 计算 (根据 IP 路 由 表 中 OSPF 路 由 ) 后 都 满足 BSR RPF 检查 规 
则 ， 把 其 中 的 RP- 映 射 放 入 Cache 后 ， 继 续 泛 潜 。 

R4 路 由 器 会 从 R2 和 R5 收 到 泛 洪 过 来 的 BSR 报 文 ，RPF 检查 后 ，R4 的 RPF 邻 
居 是 R2 (R4 是 OSPF ABR， 经 Area0 访问 10.1.3:3)， 所 以 R4 接收 R2 通告 的 BSR 
报 文 。 忽 略 R5 通告 的 BSR 报 文 。R4 缓存 RP- 映 射 之 后 ， 继 续 向 R5 泛 洪 。R5 执行 
RPF 检查 后 ， 忽 略 R4 的 BSR 报 文 。 至 此 ，BSR 泛 洪 过 程 结束 。60s 之 后 ， 上 述 过 程 
重复 再 发 生 。 

总 结 : 

对 于 收 到 的 BSR 报 文 ， 任 何 路 由 器 本 地 的 处 理 过 程 如 下 。 

。 本 地 BSR 超时 计时 器 重启 。 

。 ”BSR 报 文 被 转发 出 所 有 其 他 接口 。 

e 收 到 的 BSR 报 文中 的 RP 映射 集 被 复制 到 本 地 RP-info 中 。 

BSR 会 每 隔 60s 发 送 BSR 报 文 ， 刷 新 路 由 器 缓存 的 BSR 信息 ， 并 重 置 130s 老化 计 
时 器 。 若 超过 130s， 仍 未 收 到 BSR 报 文 ， 则 本 地 已 有 的 BSR 信息 及 RP 映射 关系 将 由 
于 老化 而 被 清除 。 

4.、RP 选择 算法 

BSR 通告 的 内 容 包 含 RP 和 组 的 映射 关系 ， 其 中 ， 组 范围 可 能 会 重 登 ， 即 一 个 组 地 
址 会 出 现在 多 个 映射 的 组 范围 中 。 如 果 这 种 情况 发 生 ，PIM 路 由 器 通过 计算 只 能 选择 一 
个 RP， 使 用 算法 如 下 。 

e 根据 组 范围 的 大 小 来 选择 RP， 优 选 最 小 的 组 范围 所 对 应 的 RP。 

e。  C-RP 优先 级 较 高 者 获胜 〈 优 先 级 数值 越 小 优先 级 越 高 ， 默 认为 0) 。 

。 如 果 优 先 级 相同 ， 则 执行 Hash 计算 ，Hash 计算 结果 中 数值 大 者 获胜 。 

e ”如 果 以 上 都 相同 ， 则 C-RP 地 址 大 者 获胜 。 

设备 在 RP- 映 射 中 选择 RP 时 ， 根 据 上 述 顺序 选择 出 最 好 的 RP。 

例 ， 设 备 需 要 为 组 播 组 G 选择 RP， 其 过 程 如 下 。 

(1) 如 果 需 要 计算 组 播 组 G 的 RP， 第 一 步 是 查找 RP- 映 射 集 ， 找 到 RP 列表 中 最 长 
匹配 的 RP 地 址 。 

例 : RP1 的 组 范围 是 224.0.0.0/4，RP2 的 组 范围 是 224.1.2.0/24， 需 要 为 组 224.1.2.3 
选择 RP， 选 择 的 结果 是 RP2， 原 因 是 其 范围 最 小 ， 最 精确 。 

(2) 如 果 存 在 多 个 RP， 则 比较 RP 的 优先 级 。 优 先 级 数值 最 小 的 RP 胜出 。 

如 果 上 面 的 组 范围 相同 的 情况 下 ， 比 较 RP 的 优先 级 。 

(3) 如 果 存 在 相同 优先 级 的 RP， 则 每 个 相同 优先 级 的 RP 都 进行 一 次 Hash 计算 。 
选择 Value 最 大 的 为 组 播 组 G 的 RP。 

(4) 如 果 计 算 的 结果 相同 ， 则 选择 IP 地 址 最 大 的 RP 为 组 播 组 G 的 RP。 

说 明 : 

BSR 中 的 负载 分 担 是 靠 Hash 掩 码 实 现 的 ， 它 使 设备 在 选择 RP 时 ， 做 到 不 同 的 组 播 组 
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使 用 不 同 的 C-RP 提供 服务 。 其 实现 方式 是 在 多 个 C-RP 上 分 别 定 义 相 同 的 组 地 址 范围 ， 在 
C-RP 优先 级 一 样 的 情况 下 ， 设 备 将 根据 Hash 掩 码 来 计算 RP。BSR 的 负载 分 担 是 异 组 负载 
分 担 ， 一 个 组 播 组 地 址 范围 中 的 不 同 组 播 地址 可 以 使 用 不 同 的 RP。 这 种 选择 是 靠 以 下 公 
式 计 算得 出 的 。 


以 下 是 上 述 RP 选择 规则 中 用 到 的 Hash 公式 : 

Hash(G,M,Ci)=(1103515245*((1103515245 *(G&M)+12345)XOR Ci)+ 12345)mod(2 
的 31 次 方 ) 

其 中 ， 

G: 为 组 地 址 ; 

M: 为 设备 BSR 的 Hash 掩 码 长 度 ， 默 认为 30 位 ; 

Ci: 为 RP 的 I 了 P 地 址 。 

说 明 : 

公式 内 参数 M 为 Hash 掩 码 长 度 ，Hash 掩 码 的 大 小 决定 了 选择 RP 时 的 颗粒 度 大 小 ， 把 
组 范围 和 Hash 掩 码 执行 “与 ”运算 ， 得 出 更 小 的 组 地 址 段 ， 每 个 组 地 址 段 可 随机 在 多 个 
RP 间 选 择 。 这 样 ，Hash 掩 码 越 大 ， 颗 粒度 就 越 小 ， 在 多 个 RP 间 分 担 的 效果 就 越 好 。 如 果 
Hash 掩 码 越 小 ， 颗 粒度 就 越 大 ， 分 担 的 效果 就 越 不 理想 ， 如 果 Hash 掩 码 为 0， 则 没有 分 
担 能 力 ， 只 能 根据 上 述 的 Hash 算法 中 的 第 四 步 选择 出 地 址 最 大 的 那个 RP。 华 为 的 Hash 掩 
码 上 默认 是 30 位 。 


例 ， 若 C-RP 1.1.1.1 和 2.2.2.2 都 定义 并 通告 了 229.1.2.0/24 组 地 址 范围 ，BSR 定义 
的 Hash 掩 码 为 30 的 情况 下 ， 则 计算 结果 是 : 上 述 组 范围 中 每 4 个 连续 地 址 段 (组 播 地 
址 范围 和 hash 掩 码 “ 相 与 ”) 会 在 2 个 RP 中 选择 一 个 RP。 如 果 Hash 掩 码 是 29 位 ， 
则 上 述 范 围 中 ， 每 8 个 连续 组 播 地 址 段 使 用 2 个 RP 中 的 一 个 。 同 理 ，Hash 掩 码 越 大 ， 
在 多 个 RP 间 分 配 的 组 播 地 址 段 的 颗粒 度 变 大 。 但 只 要 Hash 掩 码 为 非 0， 组 播 范 围 中 的 
地 址 都 按 “ 段 ”在 多 个 RP 间 “ 随 机 ”分 配 。 这 种 机 制 为 BSR 提供 了 “ 蜡 组 间 负 载 ” 分 
担 的 能 力 。 如 果 Hash 掩 码 取 值 为 0， 则 整个 组 播 地 址 范围 就 是 完整 的 一 块 ， 整 块 组 播 地 
址 只 会 选择 其 中 一 个 RP 地 址 ， 这 使 BSR 丧失 了 负载 分 担 的 能 力 。 示 例 中 只 为 上 述 组 播 
范围 定义 了 两 个 RP 一 一 1.1.1.1 和 2.2.2.2， 按 照 上 面 的 机 制 ， 每 个 RP 会 分 担 50% 的 组 播 
组 的 转发 任务 。 如 果 相 同 的 组 播 范 围 配置 了 多 个 RP， 如 4 个 RP 地 址 ， 则 整个 组 范围 将 
在 4 个 RP 间 分 担 组 播 组 业务 。 

BSR 使 用 泛 洪 方 式 在 组 播 域 中 通告 RP- 映 射 集 的 目的 是 使 全 网 的 设备 有 一 致 的 
RP- 映 射 集 ， 每 台 设 备 执行 一 样 的 计算 过 程 ， 所 以 同一 个 组 播 组 在 每 个 设备 上 选择 的 
RP 一 致 。 

5.，BSR 应 用 

示例 1: 配置 BSR 

在 开启 了 PIM 的 企业 环境 中 ,使 用 ACL 配置 Loopback0 接口 (10.1.1.1) 作 为 PIM-SM 
域 225.1.0.0/16 和 226.2.0.0/16 的 C-RP，ACL 列表 为 2002，C-RP 优先 级 为 10， 同 时 定 
义 其 为 C-BSR，Hash 掩 码 为 29。 
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<Huawei> system-view 

[Huawei] multicast routing-enable 

[Huawei] acl number 2002 

[Huawei-acl-basic-2002] rule permit source 225.1.0.0 0.0.255.255 
[Huawei-acl-basic-2002] rule permit source 226.2.0.0 0.0.255.255 

[Huawei-acl-basic-2002] quit 

[Huawei] multicast routing-enable 

[Huawei] interface loopback 0 

[Huawei-LoopBack0lip address 10.1.1.1 32 

[Huawei-LoopBack0] pim sm 

[Huawei-LoopBack0] quit 

[Huawei] pim 、 

[Huawei-pim] c-rp advertisement-interval 30 

[Huawei-pim] c-rp loopback 0 group-policy 2002 priority 10 

[Huawei-pim] c-bsr loopback 0 29 


大 

示例 2: BSR 中 的 RPF 检查 

如 图 7-44 FR 上 BSR 机 制 所 示 ， 图 中 ，R3 和 R4 无 法 看 到 BSR info 及 RP-set， 请 分 
析 原 因 。 


-人 
/SOTT 1 和 


/ 11 

/ | 

10.1.123.0/24 / 

OSPF / 
I 


FR NBMA 





R22 Rl 


/ 
S1/0/0 





ra aed 


BSR 
Loop0:10.1.2.2 


图 7-44 ” 帧 中 继 下 的 BSR 应 用 


图 7-44 中 ，C-RP 是 R1， 地 址 是 回环 接口 IP10.1.1.1; R2 是 BSR 路 由 器 ， 地 址 是 
10.1.2.2， 帧 中 继 网 络 是 10.1.123.0/24， 使 用 默认 的 OSPF NBMA 网 络 类 型 。 

分 析 过 程 : 

(1) 在 FR 上 ， 有 2 个 PIM 邻居 关系 ， 分 别 是 Rl 和 R2、R1 和 R3。 由 于 R2 和 R3 
间 非 直 连 ， 且 Link-local 组 播 地 址 224.0.0.13 无 法 在 R1 间 转 发 ， 所 以 R2 和 R3 无 PIM 
邻居 关系 。 

(2) R2 是 BSR， 其 泛 洪 10.1.2.2 的 BSR 地 址 给 R1; R1 在 知道 BSR 地 址 的 基础 上 ， 
单 播 通告 RP-set 给 R2。R2 将 其 储存 在 其 Cache 中 。 

(3) R2 为 BSR， 泛 洪 RP- 映 射 集 给 R1。RI 收 到 后 ， 通 过 RPF 检查 ， 继 续 泛 洪 给 
R3，R3 虽 收 到 R1 的 BSR 报 文 ， 但 R3 对 收 到 的 BSR 其 地 址 为 10.1.2.2) 执行 RPF 检 
查 ， 路 由 器 仅 接收 RPF 邻居 通告 的 BSR 报 文 。 上 面 的 FR 环境 中 ，R3 收 到 R1 产生 的 
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BSR 报 文 ， 源 耻 地 址 是 10.1.123.1， 而 路 由 表 中 ，R3 到 10.1.2.2 下 一 跳 是 R2， 即 地 址 
10.1.123.2 是 RPF 邻居 ， 报 文 源 IP 地 址 (10.1.123.1) 不 是 路 由 表 中 BSR 地 址 的 下 一 跳 
地 址 ， 所 以 RPF 检查 失败 ， 不 接收 该 BSR 报 文 。 

配置 : 

[Riljintlo0 

[R1-LoopBackO0]pim sm 

[R1-LoopBack0]q 

[Rijacl 2002 

[Ri-acl-basic-2002]rmle permit Source 229.1.2.3 0 

[Rl1-acl-basic-2002]q 

[Rl]pim 

[Rl-pim]ce-rp lo0 group-policy 2002 

[Rllint lo0 

[Ri-LoopBack0]pim sm 

[R1-LoopBack0]q 

[R2]pim 

[R2-pimjc-bsr lo0 

解决 办 法 1: 

在 R1、R2 和 R3 的 FR 接口 上 ， 修 改 默认 的 OSPF 网 络 类 型 为 p2mp。 

[R2]int s1/0/0 

[R2-Seriall/0/0]ospf network-type p2mp 

# 其 他 路 由 器 配置 一 致 ， 此 处 略 

修改 完 网 络 类 型 后 ，R3 的 路 由 表 中 ， 访 问 10.1.2.2 的 下 一 跳 是 10.1.123.1。 此 时 ， 
R3 对 收 到 的 BSR 报 文 重新 执行 RPF 检查 ， 根 据 路 由 表 计 算出 来 的 RPF 邻居 等 于 BSR 
报 文 的 源 卫 地 址 ，RPF 检查 通过 。 

解决 方法 2: 在 R3 上 添加 用 于 RPF 检查 的 组 播 静态 路 由 。 

ip pf-route-static 10.1.2.2 32 10.1.123.1 

RPF 静态 路 由 的 管理 距离 是 1， 优 于 所 有 其 他 路 由 ， 所 以 R3 对 BSR 地 址 10.1.2.2 
执行 RPF 检查 时 ， 不 再 参考 路 由 表 ， 而 是 使 用 上 面 的 路 由 来 计算 RPF 邻居 。 结果 是 RPF 
邻居 等 于 报 文 源 IP 地 址 ，RPF 检查 通过 后 ，R3 接收 并 缓存 RP- 映 射 并 继续 向 R4 泛 洪 
BSR。 


最 终 在 每 台 路 由 器 上 都 可 以 看 到 一 致 的 RP- 映 射 。 
7.6.4 ”PIM SM 建树 过 程 


PIM SM 建树 需要 3 个 阶段 ， 以 下 分 阶段 描述 SM 中 组 播 分 发 树 的 建立 过 程 。 

7.6.4.1 阶段 1: 组 播 接收 者 所 连 路 由 器 向 RP 建 共享 树 

PIM SM 使 用 “ 显 式 的 ”方式 建 组 播 树 ， 图 7-45 中 ， 接 收 者 通过 IGMP 加 入 报 文告 
诉 直 连 路 由 器 R6， 希 望 接收 组 播 组 G 的 组 播 数据 ，R6 路 由 器 继续 通知 RP 希望 接收 组 
播 组 G 的 组 播 数据 。PIM SM 中 每 个 组 播 组 只 使 用 一 个 RP。 图 中 ，R3 是 RP， 地 址 为 
10.1:3. 3 

(1) 图 7-45 中 , 当 R6 收 到 IGMP 加 入 组 229.1.2.3 的 请 求 后 , R6 生成 (*, 229.1.2.3) 
条 目 ，(*,G) 条 目下 游 接 口 是 收 到 IGMP 成 员 报告 的 接口 ， 上 游 RPF 接口 是 转发 (*， 
229.1.2.3) Join 的 接口 。R6 开始 向 树 根 RP 建 RPT 共享 树 。 
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图 7-45 RPT 组 播 树 建 立 过 程 


[R6]display pim routing-table 
VPN-Instance: public net 
Total 1 (*, G) entry; 0 (S$, G) entry 


(* 229.1.2.3) 

RP: 10,1.3.3 
Protocol: pim-sm, Flag: WC 
UpTime:00:03:35 | 
Upstream interface: GigabitEthernet0/0/0 

Upstream neighbor: 10.1.56.5 

RPF prime neighbor: 10.1.56.5 
Downstream interface(s) information: 
Total number of downstreams: 1 

1: GigabitEthernetO/0/1 

Protocol: igmp, UpTime: 00:03:34, Expires: - 


(2) R5 收 到 (*,229.1.2.3) Join 后 ， 创 建 相应 (*,229.1.2.3) 表 项 ， 并 添加 下 游 接 口 
G0/0/0。R6 是 最 后 一 跳 DR， 其 每 隔 60s 向 上 游 发 送 〈*,229.1.2.3) Join 报 文 ， 收 到 Join 
报 文 的 接口 重 置 接 口 计时 器 ， 超 时 时 间 为 210s; 若 收 不 到 Join 报 文 ， 接 口 超时 后 ， 会 
下 游 接 口 列 表 中 移 除 。 只 要 下 游 接口 列表 非 空 ，R5 会 继续 经 RPF 接口 向 上 游 转发 
(*,229.1.2.3) Join 报 文 。 

[R5]display pim routing-table 

VPN-Instance: public net 

Total 1 (*, G) entry; 0 (S, G) entry 


(%, 229,1.2.3) 
RP: 10.1.3.3 
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Protocol: pim-sm, Flag: WC 
UpTime: 00:04:33 
Upstream interface: Seriall/0/1 
Upstrean neighbor: 10.1.45.4 
RPF prime neighbor: 10.1.45.4 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/0 
Protocol: pim-sm, UpTime: 00:04:33, Expires: 00:02;56 
下 游 接口 的 超时 时 间 是 根据 收 到 的 Join/Prune 报 文中 的 Holdtime 时 间 来 决定 的 ， 默 
认 Holdtime 时 间 是 210s， 收 到 Join 报 文 计时 器 重 置 ， 而 收 到 Prune 报 文 接口 前 除 ， 除 非 
再 次 收 到 Join 报 文 接 口才 出 现在 下 游 接 口 列表 中 。 
(3) R4 从 下 游 接 口 S1/0/1 收 到 (*,229.1.2.3) Join， 创 建 条 目 〈*,229.1.2.3)， 添 加 
下 游 接口 S1/0/1， 经 RPF 接口 继续 向 上 游 转发 〈*#,229.1.2.3) Join 报 文 。 
(4) R3 是 RP， 收 到 〈*,229.1.2.3) Join 报 文 后 ， 创 建 〈*,229.1.2.3) 条 目 ， 添 加 下 
游 接 口 S1/0/0。 上 游 接口 是 接收 组 播 数 据 的 注册 隧道 接口 (RegisterTunnel)。 注 册 隧 道 
(CRegisterTunnel) 是 接收 来 自 组 播 源 的 数据 的 逻辑 接口 。 


[R3]display pim routing-table 
VPN-Instance: public net 
Total 1 (*, G) entry; 0 (S, G) entry 


(*%229.1.2,3) 二 

RP: 10.1.3.3 (locaD 
Protocol pim-sm, Flag: WC 
UpTime: 00:05:08 
Upstream interface; Register 

Upstream neighbor: NULL 

RPF prime neighbor: NULL 
Downstream interface(s) information: 
Total number of downstreams: 1 

1: Seriall/0/0 

Protocol: pim-sm, UpTime: 00:05:08, Expires: 00:03:22 


(5) Join 转发 的 路 径 及 在 每 台 路 由 器 上 生成 的 组 播 转发 表 最 终 构 成 RPT 树 ， 只 要 接 
收 者 存在 ，R6 会 每 60s 向 上 游 发 送 (*，229.1.2.3) Join, 刷新 组 播 路 由 表 (*，229.1.2.3) 
条 目 ，RPT 树 会 一 直 存 在 。 


田 InEernet Protocol Version 4#, Src: 10.1.56.6 (10.1.56.6), Dst: 224.0.0.13 (224.0.0.13) 
9 protocol Tridependent Multicast 
0010 .... = Version: 2 
.。 0011 = Type: Join/prune (3) 
Reserved byte(s): 00 
Checksum: 0x9bdc [correct] 
PIM options 
Upstream-neighbor: 10.1.56.5 (10.1.56.5) 
Reserved byte(s): 00 
Num Groups: 1 
Holdtime: 210s 
B Group 0: 229.1.2.3/32 
习 Num Joins: 1 
IP address: 10.1.3.3/32 (SWR) 
Num Prunes: 0 


图 7-46 R6 向 上 游 发 送 (*,G)Join 报 文 


图 7-46 是 R6 产生 的 (*,G) Join 报 文 , 报 文 的 目标 地 址 是 PIM 组 播 地 址 224.0.0.13 。 
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其 中 ，PIM 选项 字段 中 ， 上 游 邻 居 是 根据 路 由 表 确 定 的 RPF 邻居 地 址 ，Join 字段 中 人 P 
地 址 为 10.1.3.3， 是 RP 地 址 ， 置 SWR 位 。 
。 S: 代表 Sparse Mode， 在 SM 中 ， 所 有 (S,G) Join/Prune 及 (*,G) Join/Prune 
报 文 均 置 位 。 
。 W: 通配符 (Wildcard)， 代 表 *;， 此 位 仅 在 〈*;,G) Join/Prune 中 置 位 。 
。 R: RPT， 代 表 此 份 Join/Prune 报 文 是 向 RP 发 送 的 报 文 ，R 位 置 位 的 报 文 可 以 
是 (S,G) Join/Prune， 也 可 以 是 (*,G) Join/Prune。 


如 果 在 IP 地 址 字段 含 W 位 ， 则 代表 该 地 址 为 RP 的 IP 地 址 ， 此 报 文 为 (*,G) Join/Prune 
报 文 ; 而 如 果 没 有 置 W 位 ， 则 代表 该 报 文 是 (5,G) Join/Prune 报 文 。 在 PIM SM 中 ， 置 SWR 
位 的 报 文 是 (*,G) Join/Prune; 置 SR 或 仅 置 5 位 的 报 文 是 (5,G) join/Prune 报 文 。 其 中 ， 仅 
置 S 位 的 Join/Prune 报 文 是 发 生 SPT 切 换 时 向 组 播 源 发 送 的 报 文 ， 而 仅 置 SR 位 的 Join/Prune 
报 文 是 向 RP 发 送 的 报 文 。 


如 果 最 后 一 跳 有 多 人 台 路 由 器 连接 到 接收 者 所 在 网 络 ， 则 仅 DR 路 由 器 负责 向 RP 发 
基 (GD Joins 

SM 路 由 器 向 上 游 转发 (*,G) Join 报 文 的 条 件 : 

e ” 收 到 下 游 PIM 邻居 发 来 的 〈*,G) Join 或 收 到 直 连 接收 者 IGMP Join 报 文 。 

SM 路 由 器 向 上 游 转发 (*,G) Prune 报 文 发 生 在 如 下 条 件 ; 

。 下游 接 日 列表 为 NULL。 接 口 为 空 的 原因 可 能 是 组 播 接收 者 离开 或 从 下 游 邻 居 

收 到 〈*;,G) Prune 报 文 或 下 游 接口 未 收 到 〈*,G) Join 而 超时 。 

只 要 组 播 接收 者 存在 ， 最 后 一 跳 DR 路 由 器 会 周期 产生 〈*,G) Join 刷新 RPT 树 。 

7.6.4.2 ”阶段 2: 头 一 跳 路 由 器 向 RP 注册 

RP 可 以 向 共享 树 转 发 来 自 组 播 源 的 组 播 数据 流量 ， 但 组 播 源 与 RP 并 不 直接 相连 ， 
且 RP 不 知 组 播 源 位 置 , 此 时 需要 由 连接 组 播 源 的 头 一 跳 路 由 器 DR 向 RP 发 送 组 播 或 单 
播 数据 报 文 。 由 于 在 DR 和 RP 间 初 始 没有 组 播 分 发 树 ， 所 以 它 的 实现 方式 是 在 头 一 跳 
路 由 器 DR 和 RP 间 建 一 个 逻辑 隧道 ， 路 由 器 在 收 到 组 播 数 据 后 ， 直 接 进入 隧道 。 这 个 
隧道 其 实 是 PIM 的 RegisterTunnel, 使 用 PIM 注册 报 文 作为 外 层 封装 , 以 单 播 方式 由 DR 
发 给 RP，RP 收 到 注册 报 文 后 ， 将 解 封装 的 组 播 数 据 沿 共享 树 (*,G) 条 目 转发 下 去 。 

最 初 的 组 播 数据 可 以 通过 注册 隧道 发 给 RP， 在 RP 了 解 组 播 源 及 组 的 地 址 后 ， 开 始 
向 组 播 源 建 SPT 树 。SPT 树 建 好 后 ， 源 的 组 播 数 据 通 过 SPT 树 流 到 RP，RP 开始 向 DR 


发 送 注 册 停止 报 文 。 
根据 组 播 接收 者 是 在 组 播 源 活跃 之 前 加 入 网 络 还 是 在 组 播 源 活跃 之 后 加 入 网 络 ， 下 
面 分 两 种 情况 描述 上 述 注册 过 程 。 


场景 1， 源 开始 活跃 轩 ， 接 收 者 到 RP 的 共享 村 已 经 存在 

RP 是 R3，R6 的 G0/0/1 接口 有 229.1.2.3 接收 者 。 

图 7-47 中 ， 组 播 源 尚 未 开始 活跃 时 ，R6 到 R3 的 每 台 路 由 器 上 (*，229.1.2.3) 共 
享 树 条 目 已 经 存在 。 而 头 一 跳 路 由 器 R1 到 R3 上 没有 任何 关于 (10.1.1.100，229.1.2.3) 
的 组 播 条 目 。 
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Source 





图 7-47” 头 一 跳 DR 与 RP 间 的 注册 一 终止 过 程 


注册 过 程 : 

(1) 当 组 播 源 10.1.1.100 在 以 太 网 段 活 跃 时 ， 数 据 到 达 头 一 跳 路 由 器 R1 (DR)， 触 
发 创建 〈10.1.1.100，229.1.2.3) 组 播 条 目 。 收 到 组 播 数 据 的 G0/0/0 接口 为 上 游 接 口 ， 下 
游 接 口 是 转 发 组 播 数据 的 接口 ， 因 为 当前 没有 收 到 任何 Join 报 文 ， 所 以 没有 下 游 接 口 ， 
唯一 的 接口 是 注册 隧道 接口 。 

<Rl>display pim routing-table 


VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 


(10.1.1.100, 229.1.2.3) 

RP: 10.1.3.3 
Protocol: pim-sm, Flag: SPT LOC ACT 
UpTime: 00:00:05 
Upstream interface: GigabitEthernet0/0/0 

Upstream neighbor: NULL 

RPF prime neighbor: NULL 
Downstream interface(s) information: 
Total number of downstreams: 3 

1: Register 

Protocol: pim-sm, UpTime: 00:00:05, Expires: - 


(2) 组 播 数据 报 文 从 上 游 接口 流入 ,然后 转发 进 注册 隧道 ， 隧 道 使 用 PIM 协议 封装 
组 播报 文 ， 隧 道 的 源 PP 地 址 是 DR 接口 的 全 地 址 10.1.1.1， 目标 IP 地 址 是 RP 的 人 地 
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址 10.1.3.3，PIM Register 作为 隧道 协议 直接 封装 路 由 器 收 到 的 原始 的 组 播 数据 并 发 给 
RP。 图 7-48 是 DR 发 给 RP 的 注册 报 文 ， 其 中 包含 组 播 数 据 (ICMP 报 文 是 组 播 数据 )。 


m Internet Protocol Version 4, Src: 10.1.1.1 (10.1.1.1), Dst: 10.1.3.3 (10.1,3.3) 
日 Protocot Independent Multicast 
0010 .... = Version: 2 
.+ O0001 = Type: Register (1) 
Reserved byte(s): 00 
Checksum: Oxdeff [correct] 
SB PIM options 
日 Flags: Ox00000000 
$s ia si bs, wi .» = Border: No 
sO nev Sod sedan eine obs ve sas m MN-Rnglstear: Wo 
WH Internet Protocol Version 4, src:; 10.1.1.100 (10.1.1.100), Dst: 229,.1.2.3 (229.1.2.3) 
田 Enternet Control Message Protocol 


图 7-48 ”PIM 注册 报 文 


观察 注册 报 文 ， 其 中 有 两 个 Flag 位 。 

。 B (Border) 位 : 未 置 位 。 如 果 DR 和 组 播 源 直接 相连 ，B 位 不 置 位 ， 而 如 果 
DR 路 由 器 连接 其 他 协议 组 播 域 的 边界 路 由 器 ， 组 播 数 据 从 其 他 域 流入 PIM 组 
播 域 ， 则 B 位 置 位 。 

。 N (Null-Register) 位 : 未 置 位 。 如 果 注 册 报 文中 包含 组 播 数据 ， 则 不 置 位 ， 如 
果 不 包 含 组 播 数据 ， 则 置 位 ， 代 表 空 注册 报 文 ， 又 称 为 Probe 报 文 。 参 见 后 续 
小 节 有 关 空 注册 报 文 的 介绍 。 

(3) 当 RP 收 到 注册 报 文 并 解 封装 后 ， 并 不 对 内 部 组 播 数据 执行 RPF 检查 ， 根 据 组 
播 源 和 组 的 他 地 址 ,观察 当前 RP 是否 有 (*,229.1.2.3 ) 组 播 表 项 。R3 当前 存在 (*,229.1.2.3) 
组 播 表 项 ， 且 下 游 接口 非 空 。 RP 开始 向 下 游 转发 组 播 数据 ， 同 时 ， 在 经 过 的 每 一 跳 路 由 
器 上 ， 创建 和 “〔*,229.1.2.3) 并 列 存 在 的 《10.1.1.100, 229.1.2.3) 表 项 ， 二 者 有 相同 的 上 
游 及 下 游 接 口 。 

<R3>dis pim routing-table 

VPN-Instance: public net 

Total 1 (*, G) entry; 1 (S, G) entry 


(%; 279 下 2.3) 

RP: 10.1.3.3 (local) 
Protocol: pim-sm, Flag: WC 
UpTime: 00:23:04 
Upstream interface: Register 

Upstream neighbor: NULL 

RPF prime neighbor: NULL 
Downstream interface(s) information: 
Total number of downstreams: 1 

1: Seriall/0/0 

Protocol: pim-sm, UpTime: 00:21:57, Expires: 00:02:31 


(10.1.1.100, 229.1.2.3) 
RP: 10.1.3.3 (local) 
Protocol: pim-sm, Flag: 2MSDP SWT ACT 
UpTime: 00:00:06 
Upstream interface: Register 
Upstream neighbor: NULL 
RPF prime neighbor: NULL 
Downstream interface(s) information: 
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Total number of downstreams: 1 
1: Seriall/0/0 
Protocol: pim-sm, UpTime: 00:00:06, Expires: - 

华为 的 Sparse Mode 实现 中 ， 当 组 播 数据 沿 共享 树 向 下 游 转 发 时 ， 会 触发 每 一 跳 设 
备 创建 和 (*,G) 一 致 的 (S,G) 表 项 ,有 一 致 的 上 下 游 接口 对 应 关系 , 但 该 SPT 树 (S,G) 
表 项 不 置 SPT 位 ， 仅 置 ACT 位 (ACT 代表 有 数据 经 过 该 表 项 )。RPT 树 上 每 个 设备 虽 
有 (SG) 表 项 ， 但 当 数据 从 RP 向 最 后 一 跳 路 由 器 流 时 ， 数 据 因 〈S,G) 表 项 无 效 而 仍 
使 用 RPT 树 的 (*,G) 表 项 执行 RPF 检查 〈 组 播 数 据 的 入 口 与 (*，229.1.2.3) 上 游 接口 
判断 是 否 一 致 )。 华 为 这 么 设计 实现 的 优点 是 可 以 在 发 生 SPT 剪 枝 或 建树 时 ， 减 少 不 必 
要 的 建 表 项 延迟 。 

以 R4 为 例 ，R4 处 在 RPT 树 上 。 虽 有 “〔S,G) 表 项 ， 但 不 影响 数据 包 转 发 。 


<R4>dis pim routing-table 
VPN-Instance: public net 
Total 1 (*, G) entry; 1 (S, G) entry 


(*, 229.1.2.3) 
RP: 10.1.3,3 
Protocol: pim-sm, Flag: WC 
UpTime: 00:21:38 
Upstream interface: Seriall/0/0 
Upstream neighbor: 10.1.34.3 
RPF prime neighbor: 10.1.34.3 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: Seriall/0/1 
Protocol: pim-sm, UpTime: 00:21:38, Expires: 00:02:52 


(10.1.1.100, 229.1.2.3) 
RP: 10.1.3.3 
Protocol: pim-sm, Flag: ACT 
UpTime: 00:18:10 
Upstream interface: Seriall/0/0 
Upstream neighbor: 10.1.34.3 
RPF prime neighbor: 10.1.34.3 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: Seriall/0/1 
Protocol: pim-sm, UpTime: 00:18:10, Expires: - 

(4) RP 在 知道 源 后 开始 SPT 切换 ， 向 组 播 源 发 送 (10.1.1.100, 229.1.2.3) Join 报 文 ， 
Join 报 文 逐 跳 转发 到 组 播 源 。Join 报 文 经 过 R2， 在 R2 上 创建 (10.1.1.100, 229.1.2.3) 表 
项 后 ， 继 续 经 S1/0/0 转发 给 上 游 路 由 器 R1。 

R1 从 R2 收 到 (10.1.1.100; 229.1.2.3) Join 报 文 ， 在 《10.1.1.100, 229.1.2.3) 表 项 下 
添加 下 游 接 口 S1/0/0， 此 时 R1 下 游 接口 包括 S1/0/0 和 RegisterTunnel 接口 。 当 R1 转发 
组 播 数 据 时 ， 同 时 向 $1/0/0 接口 和 逻辑 隧道 接口 转发 数据 。 

(5) RP 会 收 到 两 份 同样 的 数据 报 文 ， 一 份 从 S1/0/0 接口 组 播 流 入 ， 一 份 是 通过 单 
播 的 注册 报 文 ， 此 时 RP 开始 单 播 回 送 注 册 一 停止 报 文 给 DR， 通 知 DR 不 要 继续 发 送 封 
装 的 组 播 数据 报 文 ，DR 收 到 后 会 抑制 发 送 注册 报 文 。 如 图 7-49 所 示 。 
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人 TInterner Prorocol kom 江汉 30.1.3.3 (10.1.3.3), Dst: 10.1.1.1 (10.1.1.1) 
S protocol Independent Muiti 
0.... = Version 
O010 = TW Regfater- srop 《2) 
Reserved byte(s) 
Checksum: 0x1623 ed 
S PIM options 
Group: 229.1,2.3 (229.1.2, I 
Source: 10.1.1.100 (10.1.1.100) 


图 7-49 RP 发 给 DR 的 注册 终止 报 文 


说 明 : 

1) 注册 一 停止 报 文 是 对 DR 上 (10.1.1.100，229.1.2.3) 源 和 组 的 抑制 ， 其 他 源 和 组 若 
没有 收 到 注册 一 停止 报 文 ， 则 不 抑制 。 

2) 抑制 并 不 是 永远 抑制 ， 在 60s 后 ，DR 会 重新 开始 注册 报 文 的 发 送 。 如 果 没 有 收 到 
停止 报 文 ， 则 注册 报 文 一 直 发 送 。 


场景 2， 源 活跃 ， 但 尚 无 接收 者 加 入 组 ( 共享 树 尚未 建立 ) 

当 RP 收 到 注册 报 文 时 ， 由 于 RP 没有 下 游 接 收 者 ， 所 以 没有 〈*,G) 表 项 ，RP 没有 必 
要 继续 接收 注册 报 文 ，RP 必须 向 DR 发 送 注册 一 终止 报 文 ， 通知 DR 停止 发 送 注册 报 文 。 

收 到 注册 报 文 的 RP 仍 会 创建 (10.1.1.100, 229.1.2.3) 表 项 , 但 其 下 游 接 口 为 NULL， 
会 立即 回 送 注 册 一 终止 报 文通 知 DR。DR 收 到 注册 一 终止 报 文 后 ， 抑 制 组 播 数据 继续 
发 送 。 如 图 7-50 所 示 。 


register 


一 一 一 Si 


~ 








wa S1/0/0 





S1/0/0 sr- S1/0/1 





S1/0/1 = 


S1/0/1 Kat 


图 7-50 没有 接收 者 时 的 注册 一 终止 过 程 
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过 程 : 
(1) 源 发 送 组 播 数 据 ; 
(2) R1 收 到 组 播 数 据 后 ， 开 始 产生 单 播 注册 报 文 ， 封 装 组 播 数据 ， 并 发 给 RP。 
<R1>display pim routing-table 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 
(10.1.1,100, 229.1.2.3) 
RP: 10.1.3.3 
Protocol: pim-sm, Flag: SPT LOC ACT 
UpTime: 00:00:08 
Upstream interface: GigabitEthernet0/0/0 
Upstream neighbor: NULL 
RPF prime neighbor: NULL 
Downstream interface(s) information: None 
(3) RP 收 到 后 ， 由 于 RP 上 没有 对 应 的 组 播 组 成 员 (没有 (*,G) 表 项 )， 所 以 RP 
回 送 注册 停止 报 文 给 DR， 即 R11， 通知 DR 不 要 通告 注册 报 文 。 
# 
<R3>display pim routing-table 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 


(10.1.1.100, 229.1.2.3) 
RP: 10.1.3.3 (local) 
Protocol: pim-sm, Flag: 2MSDP ACT 
UpTime: 00:00:04 
Upstream interface: Register 
Upstream neighbor: NULL 
RPF prime neighbor: NULL 
Downstream interface(s) information: None 
# 
说 明 : 
1) 头 一 跳 组 播 路 由 器 不 会 因为 收 到 Register-stop 而 终止 Register 报 文 的 发 送 ， 抑 制 计时 
器 超时 (60s) 后 重复 上 述 的 过 程 。 
2) 如 果 在 组 播 数据 抑制 期 间 , RP 收 到 下 游 发 生 过 来 的 (*,G) Join, RP 会 立即 产生 (5,G) 
Join 向 Source 转发 ， 建 好 SPT 树 后 ， 组 播 数据 滴 树 而 下 流 给 接收 者 。 


场景 3， 注 册 抑 制 计 时 器 和 空 注册 报 文 

头 一 跳 路 由 器 DR 收 到 注册 一 停止 报 文 后 ， 注 册 报 文 抑 制 并 触发 注册 抑制 计时 器 
(Register-Suppression-Timer) 开始 计时 ， 抑 制 计时 器 时 长 60s， 在 此 期 间 抑制 发 送 注 册 报 
文 ， 超 时 后 头 一 跳 DR 重新 开始 发 送 注册 报 文 。 

为 降低 RP 系统 开销 ，DR 在 每 次 抑制 计时 器 到 期 之 前 5s， 向 RP 发 送 Probe 报 文 ， 
又 叫 空 注册 报 文 。 空 注册 报 文 是 Null-Register 置 位 的 注册 报 文 ， 报 文中 仅 包 含 组 播 源 和 
组 播 组 的 信息 ， 不 含 组 播 数据 ， 其 作用 是 充当 Probe， 用 以 向 RP 通告 组 播 源 仍 处 于 活跃 
状态 。 同时， 也 提醒 RP 需要 发 送 注 册 一 停止 报 文 ， 否则 抑制 计时 器 超时 后 RP 会 收 到 包 
含 数据 的 注册 报 文 。 

如 果 RP 不 希望 收 到 包含 组 播 数据 的 注册 报 文 ， 收 到 空 注册 报 文 或 注册 报 文 〈 含 数 
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据 ) 后 应 立即 回应 注册 一 终止 报 文 。 如 果 RP 希望 收 到 注册 报 文中 的 组 播 数 据 ， 则 收 到 
空 注册 报 文 或 注册 报 文 〈 含 数据 ) 后 ， 并 不 回应 注册 一 终止 报 文 。 默 认 情 况 下 ，Probe 
时 间 间 隔 是 在 抑制 计时 器 到 期 之 前 的 5s。 命 令 如 下 : 

区 1] pim 

Ci Oe ns 

[Rl1-piml]register-suppression-timeout 60 

# DR 会 在 收 到 注册 一 终止 报 文 后 55s 时 开始 发 送 Probe 报 文 ， 此 功能 默认 开启 

说 明 : 

1) 使 用 probe-interval 命令 配置 的 时 间 间 售 必 须 小 于 register-suppression-timeout 命令 配置 
时 间 间 陋 的 一 半 。 

2) 如 果 配置 的 注册 抑制 时 间 较 小 ， 意 味 着 RP 将 更 频繁 地 接收 到 突 发 性 组 播 数据 ， 如 
果 配 置 较 大 的 注册 抑制 时 间 ， 则 意味 着 RP 等 待 注册 报 文 的 时 间 变 长 ， 组 播 接收 者 收 到 组 
播 数据 的 延迟 加 大 . 


7.6.4.3 ”阶段 3: SPT 切换 机 制 

当 RP 通过 SPT 树 收 到 组 播 数 据 报 文 后 ,RP 可 通过 注册 一 终止 报 文 ， 剪 掉 不 希望 的 
组 播 注 册 报 文 ， 用 以 降低 RP 的 负荷 ， 但 它 不 能 完全 优化 转发 路 径 。 对 一 些 接收 者 而 言 ， 
通过 RP 的 组 播 转 发 路 径 并 非 是 从 源 到 接收 者 的 最 优 路 径 。 

为 了 获得 更 低 的 转发 延迟 及 提高 转发 效率 ， 最 后 一 跳 路 由 器 DR 像 RP 一 样 ， 可 执 
行 SPT 切换 ， 创 建 直接 到 组 播 源 的 SPT 树 ， 不 再 接收 从 RPT 树 转发 过 来 的 组 播 数据 。 

为 了 达到 这 个 目的 ， 最 后 一 跳 路 由 器 DR 在 收 到 第 一 份 组 播 数据 报 文 之 后 ， 开 始 建 
SPT 树 ， 并 向 组 播 源 转发 (S,G) Join， 其 过 程 和 RP 建立 SPT 树 的 过 程 一 样 ，SPT 树 建 
成 后 ， 组 播 数 据 会 沿 SPT 流 下， 而 RPT 树 上 的 组 播 数据 将 被 前 除 。 

7.6.4.4 最 后 一 跳 的 SPT 切换 过 程 

(1) 图 7-51 中 , R6 作为 最 后 一 跳 DR, 对 收 到 的 组 播 数 据 报 文 速率 进行 周期 性 检测 ， 
车 检测 到 R6 上 当前 组 播 数据 报 文 速率 超过 pim spt-threshold 设 定 的 阔 值 ，R6 立即 开始 
SPT 切换 。 默 认 情 况 下 为 spt-switch-threshold 0kbit/s， 即 SPT 切换 阀 值 为 0， 所 以 DR 收 
到 第 一 份 组 播 数据 报 文 后 即 超 出 阀 值 。R6 开始 向 组 播 源 建 SPT 树 ， 组 播 表 中 已 存在 
(10.1.1.100，229.1.2.3) 表 项 ， 则 刷新 表 项 ， 并 继续 向 组 播 源 转发 〈S,G) Join 报 文 。 

以 下 是 R6 上 开始 建 SPT 树 的 组 播 表 。 


<R6>display pim routing-table 
VPN-Instance: public net 
Total 1 (*, G) entry; 1 (S, G) entry 


E23) 

RP: 10.1.3.3 

Protocol: pim-sm, Flag: WC 

UpTime: 00:21:48 

Upstream interface: GigabitEthernet0/0/0 
Upstream neighbor: 10.1.56.5 
RPF prime neighbor: 10.1.56.5 

Downstream interface(s) information: 

Total number of downstreams: 1 
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1; GigabitEthernet0/0/1 
Protocol: igmp, UpTime: 00:21:47, Expires: - 


(10.1.1.100, 229.1.2.3) 
RP: 10.1.3.3 
Protocol: pim-sm, Flag: ACT 
UpTime: 00:00:05 
Upstream interface: GigabitEthernet0/0/0 
Upstream neighbor: 10.1.56.5 
RPF prime neighbor: 10.1.56.5 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/1 
Protocol: pim-sm, UpTime: 00:00:05, Expires:- 








一 一 一 一 ~ 


a (*, G)Join 
i (S, G, RPT)Prune 
(8, G)Join S1/0/0 


™ 
5 


S1/0/1 


(S, G, RPT)Prune 
SI/0/l | (*, G)Join 


~、 soN=R5 
™ 
加 G0/0/0 
Sl G)Joi | (*, G)Join 
GY SYom | | Go 
| 
| R6 


图 7-51 最 后 一 跳 路 由 器 R6 的 SPT 切换 


(2) RS 收 到 源 自 R6 的 〈10.1.1.100，229.1.2.3) Join 后 ，R5 上 已 存在 〈10.1.1.100， 
229.1.2.3) 表 项 ， 根 据 单 播 路 由 表 执 行 RPF 检查 确定 到 组 播 源 “ 最 近 ” 路 径 ， 计 算 后 知 


RPF 接口 是 S1/0/0， 继 续 向 R7 转发 〈10.1.1.100，229.1.2.3) Join 报 文 。 
<R5>display pim routing-table 
VPN-Instance: public net 
Total 1 (*, G) entry; 1 (S, G) entry 


(229.1,2.3) 
RP: 10.1.3.3 
Protocol: pim-sm, Flag: WC 
UpTime: 00:28:15 
Upstream interface: Seriall/0/1 
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Upstream neighbor: 10.1.45.4 
RPF prime neighbor: 10.1.45.4 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/0 
Protocol: pim-sm, UpTime: 00:28:15, Expires: 00:03:14 


(10.1.1.100, 229.1.2.3) 
RP E01 .33 
Protocol: pim-sm, Flag: SWT ACT 
UpTime: 00:00:16 
Upstream interface: Serial1/0/1 
Upstream neighbor: 10.1.45.4 
RPF prime neighbor: 10.1.45.4 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/0 
Protocol: pim-sm, UpTime: 00:00:16, Expires: 00:03:14 
从 图 7-51 中 可 看 出 ，R5 到 组 播 源 S 和 到 RP 的 上 游 接口 不 一 致 ， 但 从 组 播 转发 表 
中 可 看 出 〈S,G) 表 项 并 没有 立即 把 RPF 上 游 接口 调整 为 S1/0/0， 仍 保持 原 上 游 接 口 
SI/OW1， 且 置 SWT 位 (代表 SPT 切换 中 )，R5 继续 向 R7 转发 (S,G) Join。 


说 明 : 
只 要 没有 从 (5,G) 树 上 收 到 组 播 数 据 ，(S,G) 条 目 即使 出 现在 组 播 转发 表 中 ， 组 播 数 
据 报 文 并 不 使 用 它 做 转发 。 (5,G) 条 目 仅 当 SPT 置 位 后 才 有 效 。 


规则 a: 当 SPT 树 和 RPT 树 在 当前 路 由 器 上 同时 存在 时 ， 若 SPT 树 (S,G) 条 目 
置 有 SPT 标志 ， 则 组 播 数 据 报 文 使 用 SPT 条 目 转发 ， 若 无 SPT 标志 位 ， 则 组 播 数据 报 
文 使 用 RPT (*,G) 条 目 转发 。 

(3) R7 收 到 〈10.1.1.100，229.1.2.3) Join 后 ， 先 创建 组 播 条 目 ， 添 加 下 游 接口 并 转 
发 给 R1。 当 (10.1.1.100, 229.1.2.3) Join 到 达 头 一 跳 路 由 器 R1 后 , R1 上 已 存在 (10.1.1.100， 
229.1.2.3) 表 项 ， 在 下 游 接口 列表 添加 S1/0/1 接口 。 目 前 ， 下 游 接口 列表 中 有 S1/0/0、 
S1/0/1 及 注册 接口 。 

(4) 图 7-52 中 ，R1 上 (10.1.1.100，229.1.2.3) 表 项 目前 有 两 个 物理 下 游 接 口 $1/0/1 
和 S1/0/0。R1 收 到 组 播 数 据 报 文 后 分 别 从 这 两 个 接口 转发 出 去 ， 一 份 经 R2、R3、R4、 
R5、R6 转发 给 接收 者 ， 一 份 经 R7、R5、R6 转发 给 接收 者 。 


注意 : 

spt-switch-threshold 命令 可 修改 最 后 一 跳 DR 上 的 SPT 切换 阀 值 。 
<R6> system-view 

[R6]acl name myacl 

[R6-acl-adv-myacl]rule permit ip destination 10.1.1.0 0.0.0.255 

[R6-acl-adv-myacl] quit 

[R6] multicast routing-enable 

[R6] pim 

[R6-pim]spt-switch-threshold 100 group-policy acl-name myacl order 1 
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一 
Source S10/0 | (*, G)Join 


(S, G, RPT)Prune 
(S,， G)Jom 


(S, G, RPT)Prune 
(*, G)Join 


(S, oniss 


S1/0/0 


(S, G)Join (*, G)Join 
S1/0/0 


pe Receiver 
图 7-52 RI1 收 到 (S$,G)Join 后 ， 出 现 两 个 下 游 接 口 


命令 中 : 

。 效 值 速率 单位 是 kbit/s， 为 流入 DR 的 所 有 组 播 组 流量 之 和 ; 

。 ”group-policy: 为 定义 的 ACL 列表 所 匹配 的 组 播 流量 设置 SPT 切换 阀 值 ; 

。 Order: 若 组 播报 文 和 多 个 条 目 同时 匹配 ， 优 先 选择 order 数值 小 的 条 目 。 

(5) 如 图 7-52 所 示 , RS 既 处 于 RPT 树 上 , 又 处 于 SPT 树 上 , (*,229.1.2.3) 和 (10.1.1.100， 
229.1.2.3 ) 表 项 共存 , 当 组 播 数 据 没有 经 S1/0/0 接口 进来 时 , R5 上 (10.1.1.100,229.1.2.3) 
表 项 置 SWT、ACT 位 ， 上 游 接口 指向 R4。 当 组 播 数据 从 新 建 的 SPT 树 流下 来 时 ， 数 据 
包 IP 头 匹配 到 R5 上 的 (S,G) 表 项 ，R5 去 掉 SWT 位 ， 把 上 游 接口 修改 为 指向 R7， 并 
置 SPT 位 ， 向 下 转发 组 播 数据 。 

此 时 ， 组 播 数据 依 然 从 共享 树 上 R4 流 给 R5， 当 R5 收 到 组 播 数据 报 文 时 ，R5 上 对 
组 播 数 据 根据 (10.1.1.100, 229.1.2.3) 表 项 执行 RPF 检查 。 

。 ”如 果 源 卫 地 址 是 10.1.1.100， 目 标 组 播 组 IP 地 址 是 229.1.2.3 的 报 文 从 S1/0/1 

接口 流 进 来 ， 由 于 精确 匹配 的 〈10.1.1.100，229.1.2.3) 条 目 (已 置 SPT 位 ) 存 
在 ， 上 游 接 口 和 入 口 不 一 致 ，RPF 检查 失败 ， 报 文 被 丢弃 。 

。 ”如 果 源 卫 地 址 是 10.1.1.100， 目 标 组 播 组 IP 地 址 是 229.1.2.3 的 报 文 从 S1/0/0 
接口 流 进来 ， 由 于 精确 匹配 的 (10.1.1.100，229.1.2.3) 条 目 存在 ， 入 接口 等 于 
RPF 接口 ，RPF 检查 通过 报 文 根 据 (10.1.1.100, 229.1.2.3) 表 项 向 下 游 接口 
转发 。 

。 ”如 果 源 耻 地 址 是 20.1.1.X， 目 标 组 播 组 IP 地 址 是 229.1.2.3 的 报 文 从 S1/0/1 接 
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口 流 进来 ， 由 于 没有 对 应 的 〈20.1.1.X，229.1.2.3) 精确 组 播 条 目 ， 仅 按 对 应 的 
(*, 229.1.2.3) 转发 。 只 要 报 文 入 接口 匹配 (*,G) 组 播 条 目的 RPF 接口 ， 报 文 
被 继续 转发 给 下 游 接 口 。 
规则 b: 路 由 器 对 匹配 (*,G) 条 目的 组 播 数据 报 文 只 验证 数据 入 口 是 否 与 (*,G) 
条 目的 RPF 接口 一 致 ， 不 一 致 则 报 文 丢弃 。 
Rs 收 到 两 份 组 播 数据 报 文 ，S1/0/1 接口 收 到 的 R4 转发 的 组 播 数据 报 文 会 被 丢掉 ， 
但 持续 的 不 必要 的 组 播报 文 流 到 R5 并 丢掉 ,会 增加 系统 开销 。 所 以 ，R5 在 (10.1.1.100， 
229.1.2.3) 表 项 SPT 置 位 后 ， 立 即 向 RP 方向 发 送 置 R( 代 表 RPT) 位 的 (10.1.1.100,， 
229.1.2.3) Prune 报 文 。 收 到 (10.1.1.100, 229.1.2.3) Prune 报 文 的 R4 路 由 器 ， 将 已 存在 
的 组 播 〈10.1.1.100，229.1.2.3) 条 目 置 RPT 位 (代表 该 (S,G) 条 目 指向 RP)。 同 时 从 
(10.1.1.100, 229.1.2.3) 下 游 接 口 列 表 中 ， 前 除 收 到 〈10.1.1.100, 229.1.2.3) Prune 报 文 的 
接口 。 组 播报 文 不 再 沿 RPT 树 流 给 R5。 
<R4>dis pim routing-table 


VPN-Instance: public net 
Total 1 (*, G) entry; 1 (S, G) entry 


(*, 229.1.2.3) 
RP: 10.1.3.3 
Protocol: pim-sm, Flag: WC 
UpTime: 00:02:03 
Upstream interface: Seriall/0/0 
Upstream neighbor: 10.1.34.3 
RPF prime neighbor: 10.1.34.3 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: Seriall/0/1 
Protocol: pim-sm, UpTime: 00:02:03, Expires: 00:03:27 


(10.1.1.100, 229.1.2.3) 
RP: 10.1.3.3 
Protocol; pim-sm, Flag: RPT ACT 
UpTime: 00:00:46 
Upstream interface: Seriall/0/0 
Upstream neighbor: 10.1.34.3 
RPF prime neighbor: 10.1.34.3 
Downstream interface(s) information: None 


如 果 R4 上 “(10.1.1.100, 229.1.2.3) 表 项 下 游 接 口 列表 不 为 空 的 话 ， 则 R4 不 会 继续 
向 RP 转发 (10.1.1.100, 229.1.2.3) RPT 置 位 的 Prune 报 文 。 

如 果 R4 上 (10.1.1.100, 229.1.2.3) 表 项 下 游 接口 列表 变 为 空 ，R4 会 继续 向 RP 发 送 
置 RPT 位 的 (10.1.1.100, 229.1.2.3) Prune, 并 在 上 游 设备 上 生成 置 RPT 位 的 (10.1.1.100， 
229.1.2.3) 组 播 表 项 ， 并 剪除 收 到 Prune 报 文 的 接口 。 


说 明 : 
为 了 区 别 于 (5S,G) Join/Prune 报 文 ， 本 章 把 (5,G) 置 RPT 位 的 Join/Prune 报 文 统一 表示 


为 (S$，G，RPT) Join/Prune 报 文 ， 根 据 (S$，G，RPT) Join/Prune 报 文生 成 的 置 RPT 标志 位 的 
(5S,G) 表 项 统一 表示 为 (S，G，RPT) 表 项 。 
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7.6.4.5 思考 练习 题 
思考 问题 1: R5 为 什么 向 RP 发 送 (S，G，RPT) Prune 报 文 ? 
答 : R5 不 希望 继续 从 RPT 树 (RP 方向 ) 收 到 源 自 10.1.1.100 的 组 播 数据 ， 但 并 没 
有 拒绝 所 有 目标 为 229.1.2.3 的 其 他 组 播 源 的 组 播 数据 报 文 ， 所 以 没有 向 上 游 发 送 
(*,229.1.2.3) Prune 报 文 ， 而 是 发 送 (10.1.1.100, 229.1.2.3，RPT) Prune 报 文 。 收 到 该 报 
文 的 接口 从 (10.1.1.100, 229.1.2.3) 组 播 表 项 中 前 除 下 游 接 口 。 但 若 当 前 尚 没有 对 应 的 组 
播 表 项 ， 则 要 先 创建 一 个 ， 至 于 (10.1.1.100, 229.1.2.3) 表 项 上 游 下 游 接口 则 要 先 复制 已 
存在 的 (*,229.1.2.3) 表 项 的 接口 列表 ， 再 执行 剪除 接口 的 操作 。 图 7-53 是 (10.1.1.100， 
229.1.2.3, RPT) Prune 报 文 。 


丁 Internet Protocol Version 4, Src: 10.1.45.5 (10.1.45.5)，Bbst: 224.0.0.13 (224.0.0.13) 
S Protocol Independent Multicast 
0010 .... = Version: 2 
.-.。 0011 = Type: Join/prune (3) 
Reserved byte(s): 00 
Checksum: Oxaa7c [correct] 
日 PIM options 
Upstream-neighbor: 10.1.45.4 (10.1.45.4) 
Reserved byte(s): 00 
Num Groups: 1 
Holdtime: 210s 
已 Group 0: 229.1.2.3/32 
Num Joins: 0 
日 Num Prunes: 1 
IP address: 10.1.1.100/32 (SR) 


图 7-53 R5 产生 的 置 RPT 位 的 Prune 报 文 


说 明 : 
S 位 : 在 SparseMode 中 所 有 Join/Prune 报 文 均 置 5 位 。 
R 位 : 向 RP 发 送 (S,G) Join 或 Prune 的 报 文 均 置 R 位 。R 位 即 RPT 位。 


思考 问题 2: 图 7-54 场景 中 , 接收 者 仅 在 R6 后 面 网 段 存 在 , 当 R5 向 RP 发 送 (S， 
G，RPT) Prune 报 文 时 ， 是 否 剪 枝 报 文 逐 跳 转 发 到 RP? 

答 : 在 图 7-54 场景 中 ， 由 R5 产生 的 〈《S，G，RPT) Prune 报 文 会 每 隔 60s， 由 R5 发 
给 R4，R4 上 〈S$，G，RPT) 表 项 下 游 接口 为 空 ， 所 以 R4 继续 转发 (S，G，RPT) Prune 
报 文 给 R3。R3 上 (S，G，RPT) 表 项 下 游 接 口 为 室 ， 所 以 R3 会 继续 向 组 播 源 前 除 已 存在 
的 SPT 树 。R2 向 组 播 源 方向 发 送 (S,G) Prune 报 文 ， 收 到 的 R2 剪除 (S,G) 表 项 下 游 接口 。 
同 理 ，R1 收 到 〈S,G) Prune 报 文 后 ，R1 上 〈S,G) 表 项 下 游 接 口 仅 存 S1/0/1 接口 。 


绪论: 

图 7-54 场景 中 ，RP 到 R5 路 径 上 的 (S，G，RPT) 表 项 会 靠 周期 收 到 Prune 报 文 而 存在 ， 
而 R1 到 RP 间 SPT 树 下 游 接 口 被 (5,G) Prune 报 文 剪 除 。 除 了 DRR1 和 RP 外 ， 其 他 路 由 器 
如 R2 上 的 (S,G) 表 项 在 210s 后 消失 。 


思考 问题 3: 什么 情况 下 ， 会 触发 R5 产生 (S，G，RPT) Prune 报 文 ? 

答 : 规则 c: 置 SPT 位 的 (S,G) 条 目 和 (*G) 条 目的 RPF 接口 或 RPF 邻居 不 一 
致 ， 会 触发 “分 叉 点 ”路 由 器 R5 产生 (S，G，RPT) Prune 报 文 。 

(S，G，RPT) Prune 报 文 由 R5 周期 产生 , 刷新 RP 到 Rs 的 置 RPT 位 的 SPT (S,G) 条 目 。 
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Sl/00 S110 (ER 


RR3 
(S，G)Prune 
SEE S1/0/1 S1/0/0 (*，G)Join 
(S, G, RPT)Prune 
(S，G)Join S1/0/0 






S1/0/1 peat R4 
R7 S1/0/1 
S1/0/0 (S, G, RPT)Prune 
S1/0/1 | (*, G)Join 
(S，G)Join < 
S1/0/0 KE 
G0/0/0 
; ; (*，G)Join 
(S, GYoin | |coono 
R6 
GO/0/1 
mm Receiver 


图 7-54 PIM-SM 拓扑 


说 明 : 

(S$，G，RPT) Prune 报 文 是 周期 产生 的 ，(S，G，RPT) Join 报 文 则 是 事件 触发 产生 的 。 

思考 问题 4: 在 SPT 切换 完成 后 ， 如 果 流 经 最 后 一 跳 DR 的 组 播 数 据 报 文 的 速率 低 
于 设 定 的 SPT 切换 阅 值 ，SPT 树 会 一 直 存 在 吗 ? 会 开始 重建 RPT 树 吗 ? 

答 : 当 R6 收 到 的 组 播报 文 的 数量 低 于 DR 上 设置 的 SPT 阔 值 时 ， 没 有 相应 的 机 制 
实现 切换 回 的 机 制 。 

当 组 播报 文 速率 为 0， 即 源 不 再 活跃 后 ， 最 后 一 跳 路 由 器 DR 没有 检测 到 组 播 数 据 
报 文 ， 则 开始 执行 SPT 剪 枝 操作 ， 向 组 播 源 逐 跳 发 送 (S,G) Prune 报 文 ， 收 到 前 枝 报 文 
的 路 由 器 剪除 下 游 接 口 ， 最 终 删除 (S,G) 条 目 。 

RPT 树 则 只 要 接收 者 一 直 存 在 ， 最 后 一 跳 路 由 器 到 RP 间 的 共享 树 一 直 存 在 。 

当 组 播 源 再 次 活跃 时 ， 组 播 数据 还 是 先 注册 报 文 ， 再 由 RPT 树 转发 ， 最 后 一 跳 SPT 
切换 。 


绪论 : 

SPT 树 或 RPT 树 都 是 由 下 游 叶 子 节点 发 送 Join 或 Prune 报 文 建立 或 拆除 的 。RPT 树 只 要 
接收 者 存在 将 一 直 存 在 ， 当 接收 者 不 存在 时 ，RPT 树 将 拆除 。SPT 树 当 接收 者 不 存在 或 组 
播 源 不 再 活跃 时 会 被 拆除 。 
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7.6.5 ”场景 示例 1: 共享 网 段 上 掉头 (turnaround ) 机 制 


7.6.5.1 场景 1: 共享 网 段 上 的 掉头 机 制 

场景 描述 : 图 7-55 中 ，R1 的 回环 接口 是 组 RP 
播 组 229.1.2.3 的 RP， 其 IP 地 址 为 10.1.1.1，R2 二 
下 游 G0/0/1 接口 连接 组 播 源 10.2.20.100。R3 的 接 
口 G0/0/1 连接 接收 者 ， 所 属 组 为 229.1.2.3。R1、 
R2 和 R3 连接 到 共享 网 段 G0/0/0, 接口 全 地 址 为 3 | Go/o/0 
10.1.123.X，X 为 路 由 器 的 编号 。 例 如 ，R3 G0/0/0 
接口 IP 地 址 为 10.1.123.3。 请 分 析 组 播 源 和 组 播 





10.1.123.0/24 


GO/O/1 
接收 者 间 的 组 播 分 发 路 径 。 
分 析 过 程 : 


(1) R1 10.1.1.1 作为 RP，R3 下 游 G0/0/1 接 
口 有 229.1.2.3 组 播 接 收 者 ， 当 R3 收 到 IGMP 报 eh 
告 后 ，R3 向 RP 10.1.1.1 发 送 (*,G) Join，G 组 地 图 7-55 共享 网 段 上 调头 机 制 
址 为 229.1.2.3。R1 收 到 下 游 的 (*,G〉Join 后 ，R1 和 R3 间 的 RPT 树 建立 起 来 。R1 是 
RPT 树 的 树 根 ， 组 播 转发 表 内 容 如 下 : 

[R1]display pim routing-table 

VPN-Instance: public net 

Total 1 (*, G) entry; 0 (S$, G) entry 


Server 


(* 229.1.2.3) 
RP: 10.1.1.1 (local) 
Protocol: pim-sm, Flag: WC 
UpTime: 00:00:05 
Upstream interface: Register 
Upstream neighbor: NULL 
RPF prime neighbor: NULL 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/0 
Protocol: pim-sm, UpTime: 00:00:05, Expires: 00:03:25 
R3 组 播 转发 表 内 容 如 下 : 
[R3]display pim routing-table 
VPN-Instance: public net 
Total 1 (*, G) entry; 0 (S, G) entry 
.2291,23) 
RP; 10.1.1.1 
Protocol: pim-sm, Flag: WC 
UpTime: 00:00:50 
Upstream interface: GigabitEthermetO/0/0 
Upstream neighbor: 10.1.123.1 
RPF prime neighbor: 10.1.123.1 
Downstream interface(s) information: 
Total number of downstreams: 1 
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1: GigabitEthermnet0/0/1 
Protocol: pim-sm, UpTime: 00:00;50, Expires: - 

# 

R3 的 上 游 接口 是 指向 RPF 邻居 R1 的 G0/0/0， 下 游 接口 列表 是 接收 者 所 在 的 接口 。 
当前 Rl1 和 R3 都 不 知道 组 播 源 的 位 置 。 

(2) 当 组 播 源 10.1.20.100 活跃 后 ，R2 是 头 一 跳 组 播 路 由 器 ， 作 为 DR， 会 产生 PIM 
Register 报 文 ,目标 IP 地址 为 RP 地 址 10.1.1.1。 
该 注册 报 文 包含 组 播 原始 数据 ， 注 册 报 文 直接 
发 给 RP。 

(3) RP 收 到 注册 报 文 后 ， 解 封 转 ， 创 建 
(S,G) 条 目 ， 并 复制 (*,G) 的 下 游 接口 列表 。 
图 7-56 中 , 接口 G0/0/0 为 (S,G) 的 下 游 接口 。 
Rl 开始 SPT 切换 时 ， 转 发 (S,G) Join 的 上 游 
接口 也 是 G0/0/0， 组 播 规 则 “上 游 接 口 不 能 同 
时 成 为 组 播 的 下 游 接 口 ” 一 旦 上 游 接口 选择 
G0/0/0 接口 ， 下 游 接口 列表 则 为 NULL， 下 游 > 
接口 为 室 ， 则 不 会 触发 SPT 切换 。RP 将 一 直 Source 





使 用 注册 报 文 接收 组 播 数据 。 图 7-56 ”共享 网 段 上 RP 掉头 机 制 
说 明 : 


RP 上 (S,G) 表 项 上 游 及 下 游 接 口 指向 同一 个 链 路 的 场景 是 不 会 发 生 SPT 切换 的 。 例 
外 的 场景 是 在 FR 的 环境 下 ， 如 图 7-56 所 示 ，R1 是 RP， 组 播 源 在 R2 后 面 ， 接 收 者 在 R3 
后 面 ，RP 上 (S,G) 表 项 上 游 及 下 游 接 口 都 是 51/0/0， 这 是 由 于 51/0/0 接口 下 游 有 多 个 PVC 
的 原因 ， 一 个 PVC 对 应 着 上 上游 接 口 ， 一 个 PVC 对 应 着 下 游 接口 。 


R1 上 ， 组 播 路 由 表 如 下 ，(S,G) 的 下 游 接口 为 空 。 
<RI>dis pim routing-table 

VPN-Instance: public net 

Total 1 (*, G) entry; 1 (S, G) entry 


(*, 229.1.2.9) 
RP: 10.1.1.1 (local) 
Protocol: pim-sm, Flag: WC 
UpTime: 00:06:12 
Upstream interface: Register 
Upstream neighbor: NULL 
RPF prime neighbor: NULL 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernetO/0/0 
Protocol: pim-sm, UpTime: 00:06:12, Expires: 00:02:51 


(10.1.20.100, 229.1.2.3) 


RP: 10.1.1.1 (local) 
Protocol: pim-sm, Flag: SPT 2MSDP ACT 
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UpTime: 00:00:15 
Upstream interface: GigabitEthernet0/0/0 
Upstream neighbor: 10.1.123.2 
RPF prime neighbor: 10.1.123.2 
Downstream interface(s) information: None 
(4) 从 上 面 的 输出 可 以 看 到 ，(*,G) 的 下 游 接口 =〈S,G) 的 上 游 接 口 ， 这 种 场景 下 ， 
RP 上 是 不 会 发 生 SPT 切换 的 。 组 播 数 据 继续 由 R2 以 单 播 注册 报 文 发 送 给 R1。R1 解 封 
装 后 ， 将 组 播报 文 按 组 播 表 项 〈(*,G) 转发 ， 经 G0/0/0 接口 转发 到 共享 网 段 ， 如 图 7-56 
所 示 。 
(5) 最 后 一 跳 为 R3 路 由 器 ， 收 到 组 播 数据 后 ， 转 发 给 接收 者 ， 由 于 超过 SPT 切换 
的 阀 值 ， 所 以 最 后 一 跳 R3 开始 SPT 切换 过 程 。R3 向 RPF 邻居 发 送 〈S,G) Join 报 文 ， 
RPF 邻居 是 R2。R2 是 头 一 跳 路 由 器 ， 组 播 表 项 〈S,G) 条 目 早 已 存在 ， 为 其 添加 下 游 
接口 GO/0/0。 此 后 ， 来 自 组 播 源 的 组 播 数据 被 R2 向 下 游 接口 列表 中 的 G0/0/0 和 
RegisterTunnel 接口 转发 。 
<R2>dis pim routing-table 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 


(10.1.20.100, 229.1.2.3) 
RP: 10.1.1.1 
Protocol: pim-sm, Flag: SPT LOC ACT 
UpTime: 00:11:35 
Upstream interface: GigabitEthernet0/0/1 
Upstream neighbor: NULL 
RPF prime neighbor NULE : > 
Downstream interface(s) information: 
Total number of downstreams: 2 
1: GigabitEthernet0/0/0 
Protocol: pim-sm, UpTime: 00:11:35, Expires: 00:02:36 
2: Register 
Protocol: pim-sm, UpTime: 00:11:35, Expires:- 
(6) R3 在 G0/0/0 接口 收 到 组 播 数 据 ， 该 报 文 可 能 源 自 R1， 也 可 能 源 自 R2， 这 可 
以 通过 报 文 的 MAC 地 址 看 出 来 。 但 R3 工作 在 三 层 ，R3 假定 这 是 SPT 流下 来 的 ， 所 以 
R3 上 SPT 和 RPT 共同 存在 且 有 效 ，(S,G) 和 〈*,G) 使 用 同样 的 上 游 接 口 G0/0/0， 但 
RPF 邻居 不 同 ，(S,G) 的 RPF 邻居 是 R2，(*,G) 的 RPF 邻居 是 R1，RPF 邻居 不 一 致 ， 
这 触发 R3 向 Rl 发送 置 RPT 位 的 〈S,G) Prune 报 文 。 
11:35:43.535.3-05:13 R1 PIM/7/JP:(public net): Group: 229.1.2.3/32 --- 1 join 1 prune 
11:35:43.535.4-05:13 R1 PIM/7/JP:(public net): Join: 10.1.1.1/32 SWR 
11:35:43.535.5-05:13 R1 PIM/7/JP:(public neb: Prune: 10.1.20.100/32 SR# Sparse 置 位 和 RPT 置 位 
上 述 Debug 中 ，Join 用 于 维护 RPT 树 ，Prune 用 于 前 除 R1 上 的 〈S,G) 表 项 的 下 游 
接口 ， 二 者 使 用 一 份 Join/Prune 报 文 ， 周 期 发 送 。 
R1 收 到 (S,G〉Prune 报 文 后 ， 从 〈S,G) 条 目下 游 接 口 列表 中 移 除 G0/0/0。 
<R1>dis pim routing-table 
VPN-Instance: public net 
Total 1 (*, G) entry; 1 (S, G) entry 


(*, 229.1.2.3) 
RP: 10.1.1.1 (local) 
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Protocol: pim-sm, Flag: WC 
UpTime: 00:18:34 
Upstream interface: Register 

Upstream neighbor NULL 

RPF prime neighbor: NULL 
Downstream interface(s) information: 
Total number of downstreams: 1 

1: GigabitEthernet0/0/0 

Protocol: pim-sm, UpTime: 00:18:34, Expires: 00:02:31 


(10.1,20.100, 229.1.2.3) 
RP:10,1,1.1 (local) 、 
Protocol: pim-sm, Flag: RPT ACT 
UpTime: 00:12:37 
Upstream interface: Register 
Upstream neighbor: NULL 
RPF prime neighbor: NULL 
\ Downstream interface(s) information: None 
最 终 ，R2 的 组 播 数 据 并 不 会 经 R1 中 转 ， 而 是 直接 发 送 给 R3。 这 种 机 制 在 共享 网 
段 上 ， 使 RP 不 再 参与 组 播 数据 转发 。 组 播报 文 经 过 最 优 路 径 ， 最 低 延 迟 直 接 发 给 R3， 
如 图 7-57 所 示 。 
如 果 R3 的 SPT 切换 过 程 中 定义 的 SPT 六 值 手工 调整 为 无 限 大 ， 则 组 播 转发 过 程 将 
如 图 7-56 所 示 。 
7.6.5.2 场景 2: 修改 后 的 掉头 机 制 


图 7-58 对 图 7-55 进行 了 稍 许 修改 ，RP 移 至 R4 位 置 。 





Source Receiver Source Receiver 


图 7-57 ”共享 网 段 掉头 机 制 图 7-58 ”掉头 机 制 


工作 过 程 如 下 : 

R3 后 面 有 组 播 接收 者 ，R3 发 起 建 RPT 树 ，(*,G) Join 报 文 经 R3-R1-R4，RPT 树 
(R4-R1-R3) 建立 完 

当 直 连 的 组 播 源 活跃 后 ，R2 单 播 注 册 报 文 发 给 R4。 
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R4 收 到 注册 报 文 后 ， 解 封装 ， 创建 (S,G) 条 目 ， 向 下 游 接口 G0/0/1 转发 组 播报 文 。 
由 于 〈S,G) 下游 接口 与 RPT 树 上 游 接口 一 致 ， 
SPT 切换 失败 。 所 以 R4 将 仅 通过 注册 报 文 接收 
组 播 数据 报 文 ， 并 沿 R4-R1-R3 路 径流 给 组 播 接 
收 者 。 

如 果 组 播 数 据 超出 R3 的 SPT 切换 阔 值 ， 则 
R3 开始 向 组 播 源 发 起 SPT 切换 ， 组 播 路 径 没有 
经 过 R1 和 R4。R3 收 到 组 播 数 据 后 ，(S,G) 表 
项 有 效 ，R3 立即 向 RP 发 送 (S, G, RPT) Prune 
报 文 。 最 终 ，R1 上 (S，G，RPT) 表 项 下 没有 
下 游 接 口 ，R1 继续 转发 (S，G，RPT) Prune 报 
文 给 R4。 最 终 ，R4 上 (S，G，RPT) 表 项 下 游 ~ 
接口 为 空 。 组 播 数据 从 R2 直接 转发 给 R3， 过程 。 Source Rose 
如 图 7-59 所 示 。 图 7-59 ”掉头 机 制 

[R3]display pim routing-table 


VPN-Instance: public net 
Total 1 (*, G) entry; 1 (S, G) entry 





(+, 229.1.2.3) 

RP: 10.1.4.4 

Protocol: pim-sm, Flag: WC UpTime: 00:35:19 
Upstream interface: GigabitEthernet0/0/0 
Upstream neighbor: 10.1.123.1 
RPF prime neighbor: 10.1.123.1 

Downstream interface(s) information: 

Total number of downstreams: 1 
1: GigabitEthernet0/0/1 

Protocol: pim-sm, UpTime: 00:35:19, Expires: - 


(10.1.20.100, 229.1.2.3) 
RP: 10.1.4.4 
Protocol: pim-sm, Flag: RPT SPT ACT 
UpTime: 00:11:29 
Upstream interface: GigabitEthernet0/0/0 
Upstream neighbor: 10.1.123.2 
RPF prime neighbor: 10.1.123.2 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/1 
Protocol: pim-sm, UpTime: 00:11:29, Expires: - 
如 果 R3 没有 发 生 SPT 切换 (R3 上 手工 关闭 SPT 切换 ), 则 R4 上 RP 通过 注册 接口 
收 到 的 组 播 数据 会 被 R4 沿 RPT 树 R4-R1-R3 流 给 接收 者 。 根 据 上 述 两 个 场景 得 出 如 下 
结论 :“RP 上 ，(S,G) 下 游 接 口 =(S,G) 上 游 接 口 ， 则 SPT 切换 不 会 发 生 ， 上 游 接口 为 
注册 接口 ”。 


7.6.6 场景 示例 2: 分 析 组 播 转发 过 程 
图 7-60 是 组 播 骨 干 网。 组 播 源 为 S$，R12 的 G0/0/1 接口 有 接收 者 PC2，R12 和 R13 
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的 G0/0/0 接口 有 接收 者 PC1， 两 个 接收 者 在 组 播 组 229.1.2.3。R7 是 RP， 其 回环 接口 地 
址 是 10.1.7.7， 已 通过 BSR 发 布 该 RP 映射 信息 ， 环 境 中 任何 一 条 链 路 的 成 本 都 一 致 。 
全 网 已 部 署 IGP， 全 网 PP 可 达 ， 其 中 ，R10 到 10.1.7.7 路 由 的 下 一 跳 是 R8, 而 R11 


到 10.1.7.7 路 由 的 下 一 跳 是 R9。 试 分 析 组 播 接收 者 接收 到 组 播 源 数据 的 过 程 。 图 中 人 P 
地 址 依 路 由 器 编号 而 定 。 










民 S1/0/3 
G0/010 R S1/0/3 


Receiver 


Receiver 


图 7-60 组 播 转发 过 程 


分 析 过 程 如 下 。 

第 1 步 ， 接收 者 先 加 入 网 络 。PC1 和 PC2 通告 IGMP Report (229.1.2.3)，R12 是 
G0/0/1 接口 上 的 DR，R13 是 G0/0/0 接口 的 DR。 其 中 ，R12 是 G0/0/0 和 G0/0/1 接口 上 
的 IGMP 查询 者 。 

第 2 步 : 先 分 析 PC1 的 加 入 请 求 。R13 创建 (*,G) 条 目 ， 并 向 上 游 RPF 邻居 R11 
转发 (*,G) Join，R11 创建 〈*,G) 条 目 ， 下 游 接口 是 S1/0/3， 上 游 接 口 是 G0/0/0，R11 
到 RP 的 RPF 邻居 是 R9。 需 要 说 明 的 是 ，R11 向 G0/0/0 发 送 的 PIM (*,G) Join 报 文 ， 
组 播 地 址 是 224.0.0.13， 该 报 文 在 G0/0/0 网 段 上 被 R8 和 R9 收 到 。 由 于 Join 报 文 含有 
RPF 邻居 的 地 址 是 R9， 所 以 Join 报 文 会 被 R9 收 到 并 处 理 ，R9 创建 〈*,G) 条 目 并 继续 
向 RP 转发 (*,G) Join, 直至 RPT 树 建立 完成 。 最 后 一 跳 网 段 上 R13 是 DR, 其 负责 RPT 
树 建立 ， 而 非 R12。 

第 3 步 : PC2 是 组 播 接收 者 ， 发 送 IGMP Report (229.1.2.3)。R12 是 G0/0/1 链 路 上 
的 DR，R12 创建 〈*,G) 表 项 后 ， 继 续 通 告 (*,G) Join 到 R10，R10 再 向 RPF 邻居 R8 
发 送 (*,G) Join，R8 向 R7 建 RPT 树 。 

最 后 一 跳 路 由 器 R12 和 R13 到 RP 的 RPT 树 路 径 ， 如 图 7-61 所 示 。 
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图 7-61 RPT 构建 过 程 


第 4 步 : 组 播 源 开 始 活跃 。 组 播 源 产 生 的 组 播 流 直接 泛 洪 到 R1 和 R2。R1 和 R2 中 ， 
R2 是 头 一 跳 网 段 G0/0/0 上 的 DR，R2 产生 单 播 注册 报 文 并 向 R7 发 送 ， 当 R7 收 到 后 ， 
开始 SPT 切换 。R7 到 组 播 源 的 路 由 负载 分 担 ， 下 一 跳 是 R5 和 R6，R7 的 RPF 邻居 是 下 
一 跳 地 址 大 的 那 台 路 由 器 。(S,G) Join 转发 给 R6，R6 根据 负载 分 担 的 路 由 ， 继 续 向 R4 
转发 (S,G) Join， 最 终 到 达 R2。R2 到 RP 的 SPT 树 建 成 ， 如 图 7-62 所 示 。 


R3 
GO/0/0 Sl/0/] SUO/L es 
yw 


> 
< 二 


















Source 


Receiver 


PC1 
国 国 二 Receiver 


图 7-62 第 一 处 SPT 切换 
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第 5 步 : 组 播 数据 沿 SPT 转发 到 RP，RP 按 〈*,G) 表 项 转发 给 R8 和 R9，R8 和 

R9 都 转发 同样 的 组 播 数据 到 G0/0/0, 触发 R8 和 R9 在 G0/0/0 链 路 上 发 生 (*,G) 表 项 的 

断言 机 制 。 如 图 7-63 所 示 。 比 较 到 RP 的 路 由 协议 优先 级 及 成 本 后 ， 地 址 大 的 R9 是 Winner， 

成 为 G0/0/0 链 路 上 的 Forwarder。R8 是 Loser，R8 把 G0/0/0 接口 从 (*,G) 条 目 中 剪除 ， 

并 继续 前 枝 到 R7。.R10 和 R11 靠 侦 听 Assert 报 文 而 知道 G0/0/0 网 段 的 Winner, 所 以 R10 
和 RIll 的 (*,G) RPF 邻居 都 指向 R9。 


说 明 : 
(*,G) 的 断言 机 制 中 ， 比 较 到 RP 的 路 由 preference 及 cost 来 确定 Winner。 而 (5,G) 的 
断言 机 制 中 ， 比 较 到 5 的 路 由 preference 及 cost 来 确定 Winner。 








R3 


一 性- 


Source 


Receiver 


PC1 
Receiver 


图 7-63 GO0/0/0 网 段 上 断言 机 制 


第 6 步 : R12 和 R13 根据 听 到 的 组 播 数 据 ， 根 据 已 知 的 组 播 源 地 址 开始 SPT 切换 。 
结果 如 图 7-64 所 示 。 

第 7 步 : R10 和 RIll 上 (*,G) 和 (S,G) 的 RPF 接口 不 一 致 ， 触 发 R10 和 了 R11 向 
RP 通告 (S，G，RPT) Prune 报 文 ， 剪 除 RPT 树 上 组 播 〈S,G) 的 转发 。R10 和 R11 经 
R9 向 RP 转发 ($S，G，RPT) Prune 报 文 。R7 上 (S,G) 表 项 下 游 接 口 为 室 ， 这 会 触发 
R7 继续 向 组 播 源 方向 继续 剪 枝 ， 剪 枝 行为 将 一 直 前 到 R6。R6 上 ,在 未 剪 枝 发 生前 ，(S,G) 
表 项 的 下 游 接 口 列表 中 有 S1/0/2 和 S1/0/3 两 个 接口 , S1/0/2 指向 RP (是 RP 的 SPT 切换 
所 致 )，S1/0/3 指向 R8， 这 是 R12 和 R13 发 生 的 SPT 切换 所 添加 的 下 游 接 口 。 

当 RP (S,G) 下游 接口 为 空 时 , RP 开始 向 S 转发 (S,G) Prune, R6 上 下 游 接口 $1/0/2 
被 剪除 。 最 终 R6 上 〔S,G) 的 下 游 接口 中 仅 剩 下 S1/0/3 接口 。 组 播 数据 最 终 将 沿 图 7-64 
中 R2-R4-R6-R8-R10-R12 及 R2-R4-R6-R8-R11-R13 转发 下 来 。 
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图 7-64 第 二 处 SPT 切换 


7.7 PIM SSM 


7.7.1 ”PIM SSM 简介 


源 特定 组 播 (SSM，Source Specific Multicast) 是 一 种 区 别 于 传统 组 播 的 新 的 业务 模 
型 ， 它 使 用 组 播 组 地 址 和 组 播 源 地 址 同时 来 标识 一 个 组 播 会 话 ， 而 不 是 像 传统 的 组 播 服 
务 那样 只 使 用 组 播 组 地 址 来 标识 一 个 组 播 会 话 。SSM 保留 了 传统 PIM-SM 模式 中 的 主机 
显示 加 入 组 播 组 的 高 效 性 , 但 是 去 掉 了 PIM-SM 模式 中 的 共享 树 和 RP (Rendezvous Point， 
汇聚 点 ) 机 制 。 在 传统 PIM-SM 模式 中 ， 共 享 树 和 RP 使 用 (*,G) 表 项 来 表示 一 个 组 播 
会 话 。 其 中 ，(G) 表示 一 个 特定 的 了 P 组 播 组 , 而 (*) 表示 发 向 组 播 组 G 的 任 一 组 播 源 。 
SSM 直接 建立 由 〈(S,G) 标识 的 一 个 组 播 最 短路 径 树 (SPT，Shortest Path Tree)。 其 中 ， 
(G) 表示 一 个 特定 的 卫 组 播 组 地 址 ， 而 〈S) 表示 发 向 组 播 组 G 的 特定 源 的 IP 地 址 。 
SSM 的 一 个 〈S,G) 对 也 被 称 为 一 个 频道 (Channel)， 以 区 分 传统 PIM-SM 组 播 中 的 任 
意 源 组 播 组 (ASM，Any Source Multicast)。 

因此 ，SSM 特别 适合 于 点 到 多 点 的 组 播 服务 ， 例 如 网 络 娱乐 频道 、 网 络 新 闻 频 道 、 
网 络 体育 频道 等 业务 ， 但 如 果 要 求 多 点 到 多 点 组 播 服务 则 需要 ASM 模式 。 

PIM-SSM 是 对 传统 PIM 协议 的 扩展 ， 使 用 SSM， 用 户 能 直接 从 组 播 源 接收 组 播 业 务 
流 , PIM-SSM 利用 PIM-SM 的 功能 , 在 组 播 源 和 客户 端 之 间 , 产生 一 个 SPT 树 。 但 PIM-SSM 
在 产生 SPT 树 时 ， 不 需要 汇聚 点 (RP) 的 帮助 。 一 个 具有 SSM 功能 的 网 络 相对 于 传统 的 
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PIM-SM 网 络 来 说 ， 具 有 非常 突出 的 优越 性 。 网 络 中 不 再 需要 汇聚 点 ， 也 不 再 需要 共享 树 
或 RP 的 映射 ， 同 时 网 络 中 也 不 再 需要 MSDP 协议 ， 以 完成 RP 与 RP 之 间 的 源 发 现 。 
相 比 于 PIM SM，SSM 机 制 则 简单 很 多 ，SSM 是 PIM SM 的 一 个 变 体 ， 它 使 用 PULL 
的 模式 建立 组 播 转发 路 径 。 这 个 组 播 转发 路 径 是 最 后 一 跳 DR 路 由 器 到 组 播 源 的 一 棵 SPT 树 。 
SSM 明显 优 于 PIM SM 的 优点 在 于 以 下 几 点 。 
。 移 除 了 对 共享 树 的 依赖 , 仅 需 建 一 棵 (S,G) 源 树 , 不 再 需要 RP, 不 再 使 用 (*,G) 
条 目 , 不 再 从 共享 树 上 接收 组 播报 文 。 这 样 减少 了 部 署 BSR 协议 带 来 的 复杂 性 ， 
降低 了 内 存 的 消耗 ， 没 有 了 数据 因 经 RP 而 引入 的 延迟 。 
。 SSM 不 用 担心 组 地 址 冲突 带 来 的 问题 ，SSM 单独 使 用 IANA 分 配 的 全 局 232/8 
的 一 个 地 址 范围 , 如果 SSM 组 地 址 不 够 ,可 以 扩展 SSM 组 地 址 范围 , 使 用 ASM 
组 地 址 提供 SSM 类 型 服务 。 
e。 SSM 本 身 也 代表 特定 源 的 组 播 服 务 ， 在 SSM 中 ， 仅 接收 者 所 请 求 的 特定 源 的 
组 播报 文 能 流 给 接收 者 。 这 要 求 从 主机 到 路 由 器 一 定 要 使 用 IGMPv3 来 表达 对 
特定 源 感 兴趣 ， 同 时 ， 也 提高 了 安全 性 。 


7.7.2 SSM 的 工作 机 制 


华为 设备 中 ， 默 认 情 况 下 ， 只 要 路 由 器 开启 组 播 路 由 和 PIM SM， 设备 就 默认 支持 
SSM， 唯 一 的 要 求 是 最 后 一 跳 路 由 器 要 支持 IGMPv3。 如 果 最 后 一 跳 网 段 有 多 台 路 由 器 ， 
需要 所 有 路 由 器 都 支持 IGMPv3,， 但 只 有 DR 路 由 器 能 建 SPT 树 ， 这 点 和 PIM SM 一 致 。 

图 7-65 中 , R6 下 游 成 员 主 机 发 送 加 入 组 的 成 员 报告 ， 目 标 地 址 为 224.0.0.22， 主 机 
支持 IGMPv3， 主 机 发 送 的 IGMPv3 报告 中 ， 含 有 组 记录 (组 播 组 地 址 ， 过 滤 模 式 ， 源 列 
表 ) = (232.1.2.3, IS_INCLUDE, 10.1.1.100)。 


R6 路 由 器 G0/0/1 接口 支持 IGMPv3 。 
interface GigabitEthernet0/0/1 

ip address 10.1.6.1 255.255.255.0 

pim sm 

igmp enable 

igmp version 3 


R6 在 G0/0/1 听 到 主机 的 IGMPv3 成 员 报 告 报 文 : 


[R6]display igmp group verbose 
Interface group report information of VPN-Instance: public net 
Limited entry of this VPN-Instance: - 
GigabitEthernet0/0/1(10.1.6.1): 
Total entries on this interface: 1 
Limited entry on this interface: ~ 
Total 1 IGMP Group reported 
Group: 232.1.2.3 
Uptime: 00:02:00 
Expires: off 
Last reporter: 10.1.6.100 
Last-member-query-counter: 0 
Last-member-query-timer-expiry: off 
Group mode: include 
Versionl-host-present-timer-expiry: off 
Version2-host-present-timer-expiry: of 
Source list: 
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Source: 10.1.1.100 
Uptime: 00:01:14 
Expires: 00:00:56 
Last-member-query-counter: 0 
Last-member-query-timer-expiry: of 









S1/0/1 





S1/0/0 S1101| 镶 关 纹 bp 


Se IGMPv3 


Report 


IGMPv3 Receiver 


图 7-65 SSM 模式 建树 过 程 


最 后 一 跳 路 由 器 R6 创建 〈10.1.1.100，232.1.2.3) 条 目 ， 下 游 接口 是 收 到 IGMPv3 
成 员 报 告 的 接口 ， 上 游 接 口 是 到 源 10.1.1.100 的 最 近 接 口 。 


[R6]display pim routing-table 
VPN-Instance: public net 
Total 2 (S, G) entries 


(10.1.1.100, 232.1.2.3) 
Protocol: pim-ssm, Flag: SG_RCVR 
UpTime: 00:00:06 
Upstream interface: GigabitEthernet 0/0/0 
Upstream neighbor: 10.1.56.5 
RPF prime neighbor: 10.1.56.5 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: GigabitEthernet0/0/1 
Protocol: pim-ssm, UpTime: 00:00:06, Expires: 00:03:24 
R5 收 到 R6 的 PIM (10.1.1.100，232.1.2.3) 组 播 Join 报告 ， 创 建 〈S,G) 条 目 ， 添 
加 下 游 接 口 ， 计 算 上 游 接 口 ， 并 继续 向 源 10.1.1.100 转发 Joain。 整 个 过 程 在 此 后 R7 至 
R1 上 ， 都 重复 发 生 。 


R1 收 到 Join 后 ,创建 (S,G) 条 目 ， 下 游 接口 是 收 到 Join 的 接口 ， 上 游 接口 是 直 连 
源 的 G0/0/0 接口 。 
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<R1>display pim routing-table 
VPN-Instance: public net 
Total 1 (S, G) entry 


(10.1.1.100. 232,1.2.3) 
Protocol: pim-ssm, Flag: LOC 
UpTime: 00:00:18 
Upstream interface: GigabitEthernet0/0/0 
Upstream neighbor: NULL 
RPF prime neighbor: NULL 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: Seriall/0/1 
Protocol: pim-ssm, UpTime: 00:00:18, Expires: 00:03:12 


7.7.3 IGMP SSM Mapping 


如 图 7-65 所 示 ， 全 网 没有 部 团 RP，R6 的 下 游 接口 有 大 量 不 支持 IGMPv3 的 主机 ， 
其 发 送 IGMPv2 Report (232.1.2.4) 的 报告 报 文 给 组 播 路 由 器 。 

仅 IGMPv3 客户 才 可 以 充分 使 用 SSM， 因 为 IGMPv3 报告 报 文中 含 组 播 源 地 址 ， 而 
IGMPvl/v2 主机 仅 通 告 组 播 组 ， 为 满足 这 部 分 客户 依然 可 以 使 用 SSM 服务 网 络 ， 可 以 
在 最 后 一 跳 DR 路 由 器 上 配置 IGMP SSM Mapping 功能 。 

IGMP SSM Mapping 通 过 在 最 后 一 跳 组 播 路 由 器 上 静态 配置 SSM 组 播 地 址 和 组 播 源 
地 址 的 对 应 关系 , 将 IGMPv1 和 IGMPv2 的 报告 报 文中 的 (*,G) 信息 转化 为 对 应 的 〈G， 
IS INCLUDE，S_LIST) 信息 ， 向 运行 IGMPv1 或 IGMPv2 的 成 员 提 供 SSM 服务 。 

配置 完成 后 ， 当 最 后 一 跳 路 由 器 收 到 来 自主 机 的 IGMPv1 或 IGMPv2 报告 报 文 时 ， 
首先 检查 该 报 文中 所 携带 的 组 播 组 地 址 G， 然 后 根据 检查 结果 的 不 同 分 别 进 行 处 理 。 

(1) 如 果 G 不 在 SSM 组 地 址 范围 内 ， 则 提供 ASM 组 播 服务 。 

(2) 如 果 G 在 SSM 组 地 址 范围 内 : 

若 R6 上 没有 组 播 组 对 应 的 IGMP SSM Mapping 规则 ， 则 无 法 提供 SSM 组 播 服务 ， 
丢弃 该 报 文 ; 

若 R6 上 有 组 播 组 对 应 的 IGMP SSM Mapping 规则 ， 则 依据 规则 将 报告 报 文中 所 包含 的 
(#G) 信息 映射 为 (G，IS INCLUDE，(S1，S2……)) 信息 ， 可 以 提供 SSM 组 播 服 务 。 

默认 R6 的 G0/0/1 接口 IGMP 版 本 为 IGMPv2， 仅 支持 IGMPvl/v2 客户 主机 。 

如 果 IGMP 版 本 为 IGMPv3， 则 可 支持 IGMPvl/v2/v3 主机 。 

缺 省 情况 下 ，SSM 组 地 址 范围 为 232.0.0.0~232.255.255.255。 可 以 通过 配置 来 扩展 
SSM 组 地 址 范围 。 

在 R6 上 ， 面 向 用 户 的 接口 G0/0/1 接口 ， 使 能 SSM 映射 。 


# 

interface GigabitEthernet0/0/1 

ip address 10.1.6.1 255.255.255.0 
pim sm 

igmp enable 

igmp version 2 或 jgmp version 3) 
igmp ssm-mapping enable 


R6 全 局 需 提供 SSM 映射 ， 保 证 IGMPv1v2 的 组 有 预定 义 好 的 源 地 址 10.1.1.100 映 
射 关系 。 以 下 配置 是 使 用 ssm-policy 修改 默认 的 SSM 组 范围 为 232.2.2.0/24。 并 为 其 静 
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态 定 义 组 播 源 地 址 ， 以 使 IGMPv1/v2 组 播 组 接收 者 也 能 使 用 SSM。 
~ #R6 
acl number 2005 
rule 1 permit source 232.2.2.0 0.0,0.255 
其 


pim 
ssm-policy 2005 
igmp 
ssm-mapping 232.2.2.0 24 10.1.1.100 
quit ， 
通过 display igmp ssm-mapping group 命令 可 以 查看 R6 上 组 播 源 和 组 播 组 的 映射 关 
系 ， 验 证 配置 结果 。 
<R6>display igmp ssm-mapping group 
IGMP SSM-Mapping conversion table of VPN-Instance: public net 
Total 1 entry 1 entry matched 
00001. (10.1.1.100, 232.2.2.0/24) 
Total 1 entry matched 
通过 display igmp group ssm-mapping 命令 可 以 查看 R6 上 特定 源 组 地 址 的 信息 。R6 
上 特定 源 组 地 址 信息 显示 如 下 : 
[R6]display pim routing-table 
VPN-Instance: public net 
Total 1 (S, G) entry 
(10.1.1.100, 232.2.2.10) 
Protocol: pim-ssm, Flag: SG_RCVR 
UpTime: 00:03:28 
Upstream interface: Seriall/0/0 
Upstream neighbor: 10.1.57.7 
RPF prime neighbor: 10.1.57.7 ” 
Downstream interface(s) information: 
Total number of downstreams: 1 
1; GigabitEthernet0/0/0 
Protocol: ssm-map, UpTime: 00:00:28, Expires: - 


说 明 : 
ssm-policy 命令 用 来 扩展 232.0.0.0/8 组 播 组 地 址 范围 ， 使 其 工作 在 SSM 模式 。 上 默认 下 ， 
ssm-policy 中 仅 隐 含 定义 232.0.0.0/8 范围 使 用 SSM， 可 用 ssm-policy 定义 ACL, 添加 其 他 组 范围 。 


示例 : 
最 后 一 跳 路 由 器 收 到 IGMPv2 Join (229.1.2.3)， 通 过 配置 使 ASM 组 229.1.2.3 工作 
在 SSM 模式 ， 而 非 默 认 的 ASM 模式 。( 不 考虑 SSM mapping) 
| # 
acl number 2005 
rule 1 permit source 229.1.2.3 0.0.0.0 
rule 2 permit source 232.0.0.0 0.255.255.255 
# 
pim 
ssm-policy 2005 


说 明 : 
定义 ACL2005 时 ,添加 229.1.2.3 的 同时 ,一 定 要 添加 232.0.0.0/8 组 地 址 ， 此 处 若 未 添 
加 232.0.0.0/8 组 ， 则 232.0.0.0/8 将 工作 在 ASM 模式 下 。 
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7.8 MSDP 及 MBGP 


7.8.1 MSDP 原理 描述 


MSDP (组 播 源 发 现 协议 ) 用 在 组 播 多 域 环境 和 AnycastRP 场景 下 , 在 RP 间 通 告 组 
播 组 及 组 播 源 的 信息 的 协议 。MSDP 工作 在 TCP 之 上 ， 服 务 端口 号 是 639。MSDP 邻居 
的 建立 都 是 由 低地 址 向 高 地 址 主动 建立 的 。 

在 多 域 环 境 中 ， 一 个 组 播 组 的 成 员 或 组 播 源 可 以 分 布 在 多 个 组 播 域 中 ， 每 个 域内 有 
各 自 的 RP。 例 如 ,如 果 在 一 个 域 中 有 229.1.2.3 组 播 组 的 源 , 而 其 他 的 域 中 也 有 229.1.2.3 
组 播 组 的 接收 者 , 接收 者 已 建 共享 树 到 该 域 的 RP, 问 当 前 域 的 接收 者 如 何 收 到 其 他 域 的 
组 播报 文 呢 ? 

MSDP 不 是 用 来 在 不 同 域 的 RP 间 传 递 组 播 数据 的 协议 , 它 是 在 RP 间 使 用 SA 报 文 
传递 (S,G) 信息 的 协议 ， 在 SA 报 文中 包含 当前 活跃 的 组 播 源 地 址 、 组 地 址 及 起 源 RP 
的 信息 。SA 报 文 用 来 告知 其 他 域 中 RP 当前 活跃 的 组 播 源 的 位 置 ， 使 RP 可 直接 向 指定 
源 建 SPT 树 。 

图 7-66 所 示 是 一 个 组 播 多 域 环境 。 当 Source 活跃 后 ，R1 发 送 注册 报 文 给 R2。R2 
作为 起 源 RP， 使 用 MSDP 向 其 他 MSDP 对 等 体 通告 SA，R4 是 MSDP 中 继 ， 转 发 SA 
到 有 接收 者 的 RP，R5 和 R6 是 MSDP 对 等 体 ， 根 据 收 到 的 SA 中 的 $ 开始 SPT 切换 ， 
最 终 组 播 数据 按 R1-R6-R5 和 R1-R6-R7 转发 给 接收 者 。 


> Receiver ] 





图 7-66 MSDP 多 域 场景 
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7.8.2 MSDP 路 由 器 的 类 型 及 部 署 结构 


1. 在 RP 上 创建 的 MSDP 对 等 体 

。 源 端 MSDP 对 等 体 ; 离 组 播 源 (Source) 最 近 的 MSDP 对 等 体 〈 通 常 是 源 端 
RP， 如 图 7-67 (a) 中 的 R1); 源 端 RP 创建 SA 消息 并 发 送 给 远 端 MSDP 对 等 
体 ， 通告 在 本 RP 上 注册 的 组 播 源 信息 。 源 端 MSDP 对 等 体 必须 配置 在 RP 上 ， 
否则 将 无 法 向 外 发 布 组 播 源 信息 。 

e ”接收 者 端 MSDP 对 等 体 : 离 接 收 者 (Receiver) 最 近 的 MSDP 对 等 体 (如 图 7-67 
(a) 中 的 R3)， 接 收 者 端 MSDP 对 等 体 在 收 到 SA 消息 后 ， 根 据 该 消息 中 所 包 
含 的 组 播 源 信息 ， 加 入 以 该 组 播 源 为 根 的 SPT; 当 来 自 该 组 播 源 的 组 播 数据 到 
达 后 , 再 沿 RPT 向 本 地 接收 者 转发 。 接 收 者 端 MSDP 对 等 体 必须 配置 在 RP 上 ， 
否则 无 法 接收 到 其 他 域 的 组 播 源 信息 。 

。 中间 MSDP 对 等 体 : 拥有 多 个 远 端 MSDP 对 等 体 ( 如 图 7-67 (b) 中 的 R2)， 
中 间 MSDP 对 等 体 把 从 一 个 远 端 MSDP 对 等 体 收 到 的 SA 消息 转发 给 其 他 远 端 
MSDP 对 等 体 ， 其 作用 相当 于 传输 组 播 源 信息 的 中 转 站 ， 可 以 对 SA 做 集中 控 
制 或 过 滤 。 


MSDP 





Source (a) Receiver 





Source Receiver 
(b) 


图 7-67 MSDP 在 RP 间 直 接 建 立 


2. 在 非 RP 上 创建 MSDP 对 等 体 

普通 的 PIM 路 由 器 ( 非 RP) 上 创建 的 MSDP 对 等 体 ， 可 接收 任何 MSDP 对 等 体 发 
送 过 来 的 SA。RPF 检查 通过 后 ， 向 其 他 MSDP 对 等 体 转发 。 

中 间 MSDP 设备 R2 并 不 是 RP， 所 以 不 会 产生 SA 报 文 ， 只 能 接收 且 转 发 ，R2 被 
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称 为 MSDP 中 继 。 
使 用 扩展 性 、 灵 活性 强 的 MSDP 会 话 在 RP 间 传 递 (S,G) 的 信息 可 适用 于 任何 复杂 
的 环境 ， 如 图 7-69 所 示 。R4 虽 不 是 RP， 但 在 MSDP 拓扑 中 ， 可 起 到 MSDP 中 继 的 作 
用 。R1 一 R4、R4~R2 及 R1 一 R3 间 各 有 MSDP 会 话 ，MSDP 可 以 配置 在 RP 和 non-RP 
的 任何 组 播 路 由 器 上 ， 非 RP 的 MSDP 路 由 器 只 能 接收 SA， 转发 SA， 如 图 7-68 所 示 。 
而 如 果 MSDP 路 由 器 是 RP， 则 可 以 产生 、 转 发 及 根据 SA 中 (S,G) 发 起 SPT 切换 。 


MSDP MSDP 





gt 


Receiver 
Source 


图 7-68 非 RP 的 MSDP 部 署 


RI 
RP1 





图 7-69 ”MSDP 部 署 示例 


7.8.3 ”MSDP 工作 机 制 


7.8.3.1 MSDP 报 文 结 构 

MSDP 报 文 类 型 有 多 种 ，SA (Source-Active)、SA-Request 及 SA-Response， 周 期 性 
Keepalive 等 。 其 中 ，SA 报 文 的 作用 是 在 RP 间 通 告 (S,G) 信息 。 

MSDP 对 等 体 之 间 通 过 交互 SA 消息 共享 (S,G) 信息 。 为 了 避免 SA 消息 中 的 (S,G) 
表 项 超时 导致 远 端 用 户 无 法 收 到 组 播 源 的 数据 ， 可 以 选择 在 SA 消息 中 封装 组 播 数 据 
报 文 。 

图 7-70 报 文中 包含 以 下 内 容 。 

(1) 起 源 RP 的 地 址 10.1.100.100， 代 表 SA 起 源 于 该 RP， 任 何 接收 该 SA 的 MSDP 
对 等 体 , 先 对 其 中 的 源 RP 地 址 做 RPF 检查 , 检查 通过 后 转发 给 所 有 其 他 MSDP 对 等 体 ， 
按 RPF 转发 可 避免 转发 环 路 。SA 的 报 文 格式 如 图 7-70 所 示 。 
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再 Interner protocol Version 4, Src; EO 1 3.1.1), Dst: 10.1.3.3 (10.1,3.3) 

TCD Contro] prorocol, src 50008 (50008), Dat Port: 639 (639), Seq: 13, Ack; 13, Len; 20 
a Muilricast Source Discovery se 

Type: IPv4 Source-Active (1) 

Langth: 0 

Entry Count 

8s5: 00.100 (10. 100.100) 

白 《5， 9 block: 10.1. 0: 100/32 -> 229.1,2.3 
erved: 


ers Yen: a 
oup Addr 29.1.2.3 (229.1.2.3) 
i ce pri 0: 了 0 100 {10, 1.40.100) 


中 7-70 ”SA 报 文 格式 


(2) (S,G) block: MSDP 中 可 包含 多 个 〈S$,G) block， 记 录 了 起 源 RP 了 解 的 所 有 
源 及 组 的 信息 。 

(3) 可 封装 RP 上 收 到 的 组 播 数 据 〈 此 功能 可 选 ， 华 为 设备 默认 未 开启 )。 

<HUAWEI> system-view 

[HUAWEI multicast routing-enable 

[HUAWEI msdp 

[HUAWEI-msdp] encap-data-enable 

说 明 : 

SA 每 60s 间隔 通告 ， 无 法 做 到 组 播 数据 的 连续 传递 ， 所 以 开启 数据 封装 意义 不 大 ， 还 
会 增 大 设备 开销 ， 所 以 不 建议 启用 。 


SA 的 产生 过 程 : 

当 一 个 RP 从 组 播 源 所 在 的 DR 上 收 到 注册 报 文 后 ， 根 据 注 册 报 文中 的 组 播 数据 信 
息 创 建 MSDP SA 报 文 ， 并 将 其 向 当前 RP 所 有 已 建立 起 来 的 MSDP 会 话 发 送 。 任 何 接 
收 的 MSDP 设备 再 继续 转发 SA 给 其 他 MSDP 对 等 体 。 如 果 不 加 控制 ， 图 7-66 中 ，R1 
转发 SA 到 R2，R2 经 R3 转发 给 R4，R4 会 转发 给 R5，R5 可 以 转发 给 R6， 如 果 R6 继 
续 再 转发 SA 给 R1, SA 转发 环 路 就 出 现 了 。 所 以 , 当 SA 在 转发 过 程 中 , 每 个 接收 MSDP 
对 等 体 先 对 收 到 的 SA 报 文 做 RPF 检查 ， 通 过 RPF 检查 后 ， 再 转发 SA。 

由 于 SA 消息 是 周期 性 发 送 的 ， 当 域内 出 现 新 的 组 用 户 时 ， 要 等 待 一 个 周期 内 的 SA 
消息 以 获取 有 效 的 〈S,G) 信息 。 为 了 降低 新 组 用 户 加 入 源 SPT 的 时 延 ，MSDP 提供 了 
Type2 和 Type3 的 SA-Req 消息 与 SA-Resp 消息 ， 以 提高 活动 源 信息 更 新 的 效率 。 

缓存 机 制 

MSDP 对 等 体 收 到 SA 报 文 ， 会 缓存 收 到 的 MSDP 报 文 ， 以 降低 获取 组 播 信息 的 延 
迟 时 间 ， 开 启 SA 消息 缓存 机 制 ， 即 在 本 地 SA Cache 中 缓存 SA 消息 所 包含 的 〈S, G) 
表 项 。 当 收 到 一 个 新 的 组 加 入 消息 〈*,G) 时 ， 设 备 首 先 会 查找 SA 缓存 。 

(1) 如 果 组 在 中 有 对 应 的 〈S,G)， 则 直接 加 入 以 $ 为 根 的 SPT; 

(2) 如 果 缓 存 中 没有 对 应 的 〈S,G)， 便 等 候 其 MSDP 对 等 体 在 下 一 个 周期 发 来 的 
SA 消息 。 

为 减少 不 必要 的 域 间 流量 ，MSDP 对 等 体 发 送 SA 消息 的 周期 通常 较 长 ， 这 将 导致 
新 组 用 户 加 入 源 SPT 的 时 延 较 大 。 建 议 在 本 地 RP 上 使 能 “SA 请 求 ” 在 远 端 MSDP 对 
等 体 上 使 能 “SA 缓存 ”( 华 为 设备 默认 开启 “SA 缓存 ”)。 

MSDP 邻居 关系 

MSDP 使 用 TCP 作为 传输 协议 ， 在 对 等 体 关 系 建立 过 程 中 ， 一 个 MSDP 对 等 体 在 
639 端口 侦 听 TCP 连接 建立 请 求 。 建 立 对 话 关系 的 MSDP 中 ， 高 卫 地 址 一 侧 侦 听 低地 
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址 一 侧 建立 邻居 的 请 求 ， 即 高 地 址 一 侧 是 Passive Peer， 而 低地 址 一 侧 是 ActivePeer， 这 
可 避免 类 似 BGP 邻居 建立 过 程 的 冲突 问题 (任何 一 方 都 主动 发 邻居 建立 请 求 )。 缺 点 是 
ActivePeer 侧 的 启动 时 间 和 ConnectRetryTimer (30s) 会 直接 决定 邻居 建立 的 时 间 。 

图 7-71 所 示 是 MSDP 邻居 状态 机 过 : 

程 ， 同 BGP 邻居 关系 的 建立 过 程 类 似 ， 
区 别 是 BGP 中 的 Active 状态 在 图 7-72 中 
是 Listen 状态 。 

初始 状态 是 Disabled， 根 据 配 置 
PeerIP 分 配 资源 进入 Inactive 状态 。 

如 果 地 址 小 于 PeerIP 地 址 ， 则 进入 
Listen 状态 ， 等 待 Peer 的 连接 请 求 。 

如 果 大 于 PeerIP 地 址 ， 则 继续 进入 
Connecting 状态 ， 开 始 主动 建立 连接 。 

如 果 ActivePeer 侧 的 ConnectionRetry 
Timer 超时 ， 则 回 到 Inactive 状态 ， 重 新 
开始 新 CRT 计时 器 计时 。 图 7-71 MSDP 邻居 建立 过 程 一 一 状态 机 

CRT 计时 器 由 MSDP ActivePeer 〈 低 
地 址 一 侧 ) 使 用 ， 从 Inactive 向 Connecting 转换 ， 每 个 Peer 一 个 Timer， 超 时 时 间 30s。 
当主 动 建 连接 时 开始 计时 ， 成 功 则 终止 计时 ， 若 超时 ， 从 新 建 连接 ， 并 重 置 计时 器 。 

7.8.3.2 RPF 对 等 体检 查 

执行 RPF 检查 的 目的 是 要 求 MSDP 理解 到 起 源 RP 的 逻辑 拓扑 , 这 使 MSDP 能 够 决 
定 经 过 哪个 对 等 体 到 起 源 RP 最 近 , MSDP 本 身 并 不 包含 任何 用 于 决定 如 何 到 源 RP 的 拓 
扑 信 息 。 

SA 消息 的 RPF 检查 规则 

为 了 防止 SA 消息 在 MSDP 对 等 体 之 间 被 循环 转发 ，MSDP 对 接收 到 的 SA 消息 执 
行 RPF 检查 , 在 消息 传递 的 入 方向 上 进行 严格 的 控制 。 不 符合 RPF 规则 的 SA 消息 将 被 
丢弃 。 

RPF 检查 的 主要 规则 为 :MSDP 设备 收 到 SA 消息 后 ， 根 据 MRIB (Multicast RPF 
Routing Information Base) 确定 到 源 RP《〈 即 创建 该 SA 消息 的 RP) 最 佳 路 径 的 下 一 跳 是 
哪个 对 等 体 ， 这 个 对 等 体 也 称 为 “RPF 对 等 体 ”。 如 果 发 现 SA 消息 是 从 RPF 对 等 体 发 
出 的 ， 则 接收 该 SA 消息 并 向 其 他 对 等 体 转发 。MRIB 包括 : MBGP、 组 播 静态 路 由 、 单 
播 路 由 (包括 BGP、IGP)。 

此 外 ，SA 消息 在 转发 时 还 遵守 以 下 的 一 些 RPF 检查 规则 。 

规则 1: 发 出 SA 消息 的 对 等 体 就 是 源 RP， 接 收 该 SA 消息 并 向 其 他 对 等 体 转发 。 

规则 2: 接收 从 静态 RPF 对 等 体 到 来 的 SA 消息 。 一 台 路 由 器 可 以 同时 与 多 个 路 由 
器 建立 MSDP 对 等 体 关 系 。 用 户 可 以 从 这 些 远 端 对 等 体 中 选取 一 个 或 多 个 ， 配 置 为 静态 
RPF 对 等 体 。 

规则 3: 如 果 一 台 路 由 器 只 拥有 一 个 远 端 MSDP 对 等 体 ， 则 该 远 端 对 等 体 自动 成 为 
RPF 对 等 体 ， 路 由 器 接收 从 该 远 端 对 等 体 发 来 的 SA 消息 。 
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规则 4: 发 出 SA 消息 的 对 等 体 与 本 地 路 由 器 属于 同一 Mesh Group， 则 接收 该 SA 
消息 。 来自 Mesh Group 的 SA 消息 不 再 向 属于 该 Mesh Group 的 成 员 转 发 , 但 向 该 Mesh 
Group 之 外 的 所 有 对 等 体 转发 。 
规则 5: 到 达 源 RP 的 路 由 需要 跨越 多 个 AS 时 ， 接 收 从 下 一 跳 AS (以 AS 为 单位 ) 
中 的 对 等 体 发 出 的 SA 消息 ， 如 果 该 AS 中 存在 多 个 远 端 MSDP 对 等 体 ， 则 接收 从 外 地 
址 最 高 的 对 等 体 发 来 的 SA 消息 。 


7.8.4 AnycastRP 应 用 


在 PIM-SM 中 ,每 个 组 播 组 只 允许 一 个 活跃 的 RP， 即 任何 时 候 只 有 一 个 RP 服务 于 
一 个 组 播 组 。 但 单 RP 带 来 的 问题 是 流量 过 于 集中 ， 缺 少 可 扩展 性 ， 组 播 源 的 注册 及 接 
收 者 周期 维护 RPT 树 致 RP 开销 过 大 ， 尤 其 是 当 RP 失效 时 的 收敛 慢 及 可 能 的 组 播 包 的 
次 优 转发 路 径 ， 使 单 RP 方案 使 用 有 限制 。 

AnycastRP 是 一 种 在 PIM 组 播 域内 为 一 个 组 播 组 提供 多 个 活跃 的 RP 的 机 制 。 这 些 
RP 同 为 一 个 组 播 组 服务 ，RP 之 间 能 够 解决 RP 失效 时 收敛 时 间 过 长 的 问题 。 它 的 容错 
恢复 机 制 和 负载 分 担 能 力 使 AnycastRP 机 制 成 为 域内 组 播 应 用 部 署 的 最 佳 方案 。 

在 组 播 域内 ， 定 义 多 个 RP， 使 用 相同 的 IP 地 址 作为 RP， 建 议 使 用 回环 接口 的 IP 
地 址 ， 并 把 回环 接口 发 布 到 IGP 中 ， 使 其 全 网 可 达 。 出 现在 多 个 RP 上 的 这 个 卫 地址 可 
叫做 Anycast 地 址 ， 其 好 处 可 使 任何 位 置 的 设备 直接 查 其 路 由 表 找 到 离 它 最 近 的 RP。 如 
果 组 播 源 和 接收 者 同时 执行 注册 和 建 RPT 树 的 过 程 ， 二 者 可 能 选择 的 是 拥有 相同 IP 地 
址 的 不 同 RP。 

在 全 网 的 组 播 路 由 器 都 认定 Anycast 地 址 为 相应 组 播 组 的 RP 时 ， 在 图 7-72 中 ，Source 
为 组 播 源 ， 当 其 活跃 时 ，DR 路 由 器 R4 发 注册 报 文 到 离 它 最 近 的 RP1， 即 R1， 而 R6 后 
面 的 组 播 组 的 接收 者 则 注册 到 RP2， 即 R3。 


10.1.1.100 ea 
RP1 







S1/0/1 


S1/0/1 


Source 二 
Receiver 


图 7-72 AnycastRP 中 ，RP 双 活 部 署 方案 


RP1 收 到 注册 的 组 播报 文 , 据 此 了 解 组 播 源 的 位 置 , RP1 可 使 用 MSDP 会 话 传 递 SA 
报 文 给 RP2， 完 成 RP 间 的 〈S,G) 的 通告 。 
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RP 之 间 可 使 用 MSDP 协议 ， 也 可 以 不 使 用 MSDP 协议 在 RP 间 传 递 〈S,G) 信息 。 

域内 部 署 Anycast RP， 可 以 实现 以 下 内 容 。 

。 ”RP 路 径 最 优 : 组 播 源 向 距离 最 近 的 RP 进行 注册 ， 建 立 路 径 最 优 的 SPT; 接收 
者 向 距离 最 近 的 RP 发 起 加 入 ， 建 立 路 径 最 优 的 RPT。 

。 RP 间 的 负载 分 担 : 每 个 RP 上 只 需 维护 PIM-SM 域内 的 部 分 源 /组 信息 、 转 发 
部 分 的 组 播 数 据 ， 从 而 实现 了 RP 间 的 负载 分 担 。 

。 ”RP 间 的 元 余 备 份 : 当 某 RP 失效 后 ， 原 先 在 该 RP 上 注册 或 加 入 的 组 播 源 或 接 
收 者 会 自动 选择 就 近 的 RP 进行 注册 或 加 入 操作 ,从 而 实现 了 RP 间 的 见 余 备份 。 
切换 时 间 由 IGP 协议 的 收敛 时 间 决 定 ， 例 如 ， 图 7-72 中 ，R3 路 由 器 为 RP2， 
若 暂 时 离线 ， 下 游 的 接收 者 不 需 知道 当前 使 用 的 是 哪个 RP， 所 以 〈*G) Join 
报 文 会 在 下 个 周期 发 送 给 R1，RPT 共享 树 将 在 R1-R2-R5-R6 间 建 立 起 来 。 当 
然 ， 若 Switchover 机 制 已 经 完成 ， 组 播报 文 经 R4-R5-R6 流 给 接收 者 ， 此 时 ， 
RP2 离线 ， 对 组 播 数据 的 接收 没有 影响 ， 若 不 考虑 〈(#,G) Join 的 发 送 周 期 的 影 
响 ， 可 认为 组 播 RP2 离线 后 ， 接 收 者 或 组 播 源 了 解 到 新 RP 完全 由 IGP 协议 的 
收敛 时 间 决 定 。 

7.8.4.1 ”部署 AnycastRP 

示例 : 部 署 AnycastRP， 实 现 高 可 用 性 。 

7-72 中 ，RP1 和 RP2 使 用 Loop0 作为 RP， 且 IP 地 址 为 10.1.100.100，RP 间 建 立 

MSDP 会 话 使 用 不 同 于 RP 地 址 的 Loopl 作为 会 话 地 址 和 SA 中 “起 源 RP” 的 地 址 。 

RP1 配置 命令 如 下 : 


J : 
age 10.1100100 255255255255 
: pim sm ， ne 
intloop1 , 
ip address 10.1.1. 1255. 255255. 255 
pimsm 
4#R3 Leop1 地 址 1013.392， 此 处 配置 同上 ， 省 略 


每 个 RP 上 定义 相同 的 RP 和 组 播 组 范围 的 对 应 关系 ， 也 可 以 使 用 静态 配置 实现 。 
es 1 
”ec-bsr loopback 1 #R1 和 R3 配置 相同 
上 面 的 配置 中 ，RP 和 BSR 处 于 同一 全 物理 设备 中 。 C-RP 地 址 使 用 Pa 地 址 ， 
而 C-BSR 地 址 可 使 用 其 他 地 址 。 
RP1 和 RP2 之 间 通 告 (S,G) 的 机 制 主要 有 两 种 ， 方 案 相 似 。 
方案 1: 在 RP 间 使 用 MSDP 协议 ， 通 告 活跃 的 源 / 组 的 信息 ， 使 用 SA 报 文 。 
方案 2: 在 RP 间 建 立 全 互联 的 PIM 邻居 关系 ， 并 在 此 邻居 关系 基础 之 上 ， 转 发 起 
源 RP 收 到 的 注册 报 文 。 
7.8.4.2 ”RP 间 使 用 MSDP 传递 源 / 组 信息 
方案 1 的 优点 是 使 用 扩展 性 、 灵 活性 强 的 MSDP 会 话 在 RP 间 传 递 (S,G) 的 信息 ， 
它 可 适用 于 任何 域内 或 域 间 复 杂 的 组 播 环 境 。 
工作 过 程 描述 ; 
第 1 步 ， 接 收 者 R6 通告 IGMP 报告 声称 加 入 229.1.2.3 组 播 组 ; 
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图 7-73 ”AnycastRP 的 MSDP 部 署 实现 


第 2 步 ，R6 开始 RPT 树 建 立 ，RPT 树 建 至 最 近 的 RP。 如 图 7-73 中 的 RP2。 

第 3 步 ， 当 组 播 源 活跃 时 ， 其 源 地 址 为 10.1.40.100， 目 标 组 播 地 址 为 229.1.2.3。R4 
为 头 一 跳 DR， 收 到 组 播报 文 后 ，DR 使 用 注册 包 封 装 数据 并 单 播 至 最 近 的 RP， 如 图 中 
的 RP1。R1 收 到 注册 包 报 文 , 解 封装 后 , 根据 其 中 的 源 /组 , 无 法 找到 对 应 的 (*,229.1.2.3)， 
所 以 判定 (10.1.40.100，229.1.2.3) 组 在 当前 RP 没有 接收 者 ， 所 以 回应 给 头 一 跳 DR 注 

终止 报 文 。 

第 4 步 ，RP1 产生 SA， 并 向 MSDP 对 等 体 RP2 通告 。RP2 把 〈S,G) 的 信息 放 到 
SA 中 ，SA 报 文中 的 起 源 RP 地 址 为 1.1.1.1，R3 收 到 SA 后 ,对 SA 中 的 起 源 RP 地 址 做 
RPF 检查 。 由 于 其 起 源 RP 的 地 址 为 自己 ， 所 以 RPF 检查 失败 。 为 避免 失败 ， 在 RP 上 
修改 起 源 RP 的 地 址 为 10.1.1.1，RPF 检查 通过 。 

配置 实现 过 程 如 下 : 

#R1 上 配置 MSDP 

interface LoopBack0 

ip address 10.1.100.100 255.255.255.255 

i 

interface LoopBackl 

ip address 10.1.1.1 255.255.255.255 

Ns 

msdp 

peer 10.1.3.3 connect-interface LoopBackl 

报 3 上 配置 相似 ， 此 处 略 

RP1 和 RP2 间 建 立 MSDP 会 话 ， 传 递 SA。 如 图 7-74 所 示 。 


田 Internet Protocol Version 4, Src: 10.1.1.1 {10.1.1.1), Dst: 10.1.3.3 (10.1.3.3) 
Transmission Control Protocol, Src Port: 50008 (50008), Dst Port: 639 (639), seq: 231, ACk: 55, Len: 20 
SB Multicast Source Discovery protocol 
Type: IPv4 Source-Active (1) 
Length: 20 
Entry Count: 1 
RP Address: 10.1.100.100 (10.1.100.100) 
日 《S,G) block: 10.1.40.100/32 -> 229.1.2.3 
Reserved: Ox000000 
sprefix len: 32 
Group Address: 229.1.2.3 (229.1.2.3) 
source Address: 10.1.40.100 (10.1.40.100) 


图 7-74 MSDP SA 报 文 
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其 中 ,起源 RP address 地 址 为 10.1.100.100，RP2 收 到 此 SA 后 ， 对 RP 地 址 做 检 
查 , 收 到 的 SA 中 的 RP 地 址 是 自己 的 RP 地 址 10.1.100.100, 说 明 存 在 SA 转发 环 路 ， 
丢弃 该 SA。 


<R3> 
11:38:04.28.1-05:13 R3 MSDP/7/PACKET: (public net): 10.1.1.1: Received 20-bytes message 37 from peer (H13747) 
<R3> 
11:38:04.28.2-05:13 R3 MSDP/7/PACKET: (public net): 10.1.1.1: Received message with RP looping: 10.1.100.100 
(H134753) 
为 解决 上 述 RPF 检查 失败 问题 ， 修 改 SA 中 起 源 RP 的 地 址 。 
#R1 上 修改 MSDP 的 起 源 RP 地 址 
msdp 
originating-rp LoopBackl 
peer 10.1.3.3 connect-interface LoopBackl 
# 同 理 ，R3 上 的 配置 相同 
修改 后 ， 如 果 originating RP 为 RP 的 Loop1， 则 产生 如 下 输出 : 
11:50:05.308.1-05:13 R3 MSDP/7/PACKET: (public net): 10.1.1.1: Received 20-bytes message 50 from peer 
<R3> 
11:50:05.308.2-05:13 R3 MSDP/7/PACKET: (public net): 10.1.1.1: SA-TLV, length: 20, entry count: 1, RP: 10.1.1.1 
<R3> 
11:50:05.308.3-05:13 R3 MSDP/7/SOURCE-ACTIVE: (public net): 10.1.1:1: Only one peer, passed RPF check 
<R3> 
# RP2 收 到 SA 报 文 后 ， 由 于 是 唯一 的 MSDP 对 等 体 ， 所 以 RPF 检查 通过 
<R3>display msdp sa-cache 
MSDP Source-Active Cache Information of VPN-Instance: public net 
MSDP Total Source-Active Cache-l entry 
MSDP matched 1 entry 


(10.1.40.100, 229.1.2.3) 

Origin RP: 10.1.1.1 

BoTAS? 

Uptime: 00:08:13, Expires; 00:05:35 

# 仅 接收 侧 SA-Caehe 默认 缓存 已 知 的 S 和 G 记录 

第 5 步 ， 通 过 RPF 检查 通过 后 ， 由 于 R3 下 游 有 229.1.2.3 组 的 接收 者 ，R3 创建 
(10.1.40.100, 229.1.2.3)， 并 向 Source 发 (S, G) Join， 路 径 上 R3-R2-R5-R4，(S, G) 树 
已 经 建立 起 来 。 

S1 把 组 播报 文 沿 R4-R5-R2-R3 流 到 R3 后 ，R3 沿 共 享 树 直 接 流 给 R6。 

第 6 步 ， 组 播 流 量 超出 R6 最 后 一 跳 的 SPT 切换 阀 值 ，R6 触发 SPT 切换 机 制 ， 建 
源 树 到 已 知 的 源 ， 并 向 RS 发 送 (S,G) Join 报 文 。 

当 组 播 数 据 会 沿 “ 新 ”SPT 树 从 R4-R5-R6 流 给 接收 者 。 在 此 期 间 ，R6 会 癌 共 享 树 
R3 转发 〈S, G, RPT) 前 枝 报 文 。 

DR 的 注册 每 60s 发 生 一 次 ，MSDP 会 话 上 ，SA 每 周期 60s 向 R3 通告 。 因 为 R3 的 
(S$, G) 下 游 接 口 已 被 (S, G, RPT) Prune 剪 掉 ， 所 以 不 会 影响 现 有 的 组 播 转发 路 径 。 

此 后 组 播 路 径 将 仅 沿 R4-R5-R6 流 给 接收 者 。 


说 明 : 
R4 会 每 60s 向 R1 注册 ，R1 知道 组 播 源 活跃 ， 会 每 隔 60s 产生 SA 向 MSDP 通告 。 如 果 
收 不 到 周期 注册 ， 则 不 再 产生 SA。 
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7.8.4.3 ”RP 闻 使 用 PIM 协议 通告 源 /组 信息 
此 种 设计 不 需要 使 用 MSDP 协议 ， 可 适用 于 任何 PIM SM 的 场景 ， 设 计 要 求 简单 ; 

缺点 是 仅 适 用 于 域内 多 RP 的 环境 下 ， 且 Anycast 的 多 个 RP 间 一 定 要 全 互联 ， 所 以 有 n 

(n-1) /2 的 问题 。 过 多 的 会 话 数量 限制 其 在 大 型 的 多 RP 网 络 环境 中 使 用 ， 此 时 在 包含 

两 到 三 个 RP 的 AnycastRP 场景 中 适宜 。 
图 7-75 场景 需要 在 每 对 RP 间 手 工 建立 PIM 会 话 ,其 工作 过 程 同 MSDP Mesh Group 

相似 。 图 7-75 中 ，RP1、RP2 和 RP3 是 RP， 各 自 使 用 Loop0 地 址 为 10.1.100.100/32 来 

充当 Anycast 地 址 ， 使 用 其 他 Loopback 接口 来 建立 RP 间 PIM 邻居 关系 。 


Rl R2 MSDP 





图 7-75 AnycastRP 间 使 用 PIM 全 互联 


在 R1 上 配置 如 下 。 
pim 
c-bsrLoopBackl 
c-rp LoopBack0 
anycast-rp 10.1.100.100 
local-address 10.1.1.1 
peer 10.1.3.3 
peer 10.1.5.5 
# 用 于 建立 PIM 会 话 的 源 他 地 址 ， 建 议 是 回环 地 址 ， 但 一 定 不 能 使 用 anycast IP 地 址 
在 R3 和 R5 上 做 同样 的 配置 ， 以 下 为 R3 配置 ，R5 配置 略 。 
pim 
c-bsr LoopBackl 
c-rp LoopBack0 
anycast-rp 10.1.100.100 
local-address 10.1.3.3 


peer 10.1.1.1 
peer 10.1.5.5 


工作 过 程 如 下 。 

。 组 播 源 S 发 送 组 播报 文 ，DR 直接 连接 到 S1， 封 装 在 PIM 注册 报 文 中 ， 根 据 单 
播 路 由 表 ， 发 送 给 任何 一 个 离 自 己 最 近 的 RP， 例 如 RP1。 

。 ”RP1 收 到 PIM 注册 报 文 ， 解 封装 ， 并 沿 共 享 树 送 给 接收 者 。 如 果 没 有 接收 者 ， 
则 RP1 回 送 注册 终止 报 文 给 DR。DR 抑制 组 播 数 据 以 注册 包 发 送 。 

。 RP1 被 配置 了 RP2 和 RP3 的 耳 地 址 。RP1 把 RP 收 到 的 注册 包 向 这 两 个 Peer 
发 送 ， 报 文 的 源 地 址 是 RP1 的 卫 地 址 。 同 时 ， 根 据 注 册 包 的 源 地 址 ， 判 定 地 
址 并 不 是 来 自 其 他 AnycastRP 集合 成 员 。 
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。 ”RP1 创建 (SG)， 如 果 有 下 游 接 收 者 ，RP1 开始 SPT 切换 ; 否则 ，SPT 切换 不 发 生 。 

。 ”RP1 发 送 注册 停止 报 文 给 DR。 如 果 由 于 一 些 原因 ，RP1 发 给 RP2 和 RP3 的 注 
册 报 文 被 丢失 了 ，DR 会 在 抑制 超时 后 重新 产生 注册 包 向 RP1 通告 ，RP1 再 向 
集合 所 有 成 员 通 告 。 

。 RP2 从 RP1 收 到 注册 包 后 ， 解 封装 ， 送 给 共享 树 成 员 。 如 果 RP2 下 没有 组 播 接 
收 者 ， 则 RP2 发 送 注册 停止 报 文 给 RP1; 如 果 RP2 下 有 组 播 接收 者 ， 则 RP2 
开始 SPT 切换 。 

。 同 理 ，RP3 从 RP1 收 到 注册 报 文 ， 解 封装 ， 如 果 没 有 下 游 接收 者 ， 则 回应 注册 
停止 报 文 给 RP1。 否 则 ， 开 始 SPT 切换 。 

此 种 AnycastRP 方案 的 设计 目的 是 为 了 移 除 对 MSDP 的 依赖 ， 靠 PIM 自身 的 扩展 

实现 AnycastRP， 但 此 种 方案 要 部 署 全 互联 的 PIM 会 话 ， 相 比 于 MSDP， 开 销 稍 大 。 


7.8.5 SA 过 滤 控 制 


SA 消息 在 MSDP 对 等 体 之 间 转 发 ， 除 了 RPF 检查 ， 还 可 以 配置 各 种 过 滤 策 略 ， 从 
而 只 接收 和 转发 来 自 正确 路 径 并 通过 过 滤 的 SA 消息 ， 以 避免 SA 消息 传递 环 路 。 另 外 ， 
可 以 在 MSDP 对 等 体 之 间 配 置 MSDP 全 连接 组 (Mesh Group), 以 避免 SA 消息 在 MSDP 
对 等 体 之 间 的 泛滥 。 

SA 消息 过 滤 

缺 省 情况 下 ，MSDP 不 过 滤 SA 消息 ， 从 一 个 对 等 体 发 出 的 SA 消息 可 以 被 传递 到 
全 网 的 所 有 其 他 MSDP 对 等 体 。 

然而 ， 有 些 PIM-SM 域 的 (S,G) 信息 仅 适 用 于 本 域内 转发 ， 如 一 些 本 地 组 播 应 用 
使 用 了 全 局 的 组 播 组 地 址 ， 或 组 播 源 用 的 是 私 网 地 址 ， 如 果 不 加 过 滤 ， 这 些 〈$,G) 表 
项 就 会 经 过 SA 消息 传递 到 其 他 MSDP 对 等 体 。 针 对 这 种 情况 ， 可 以 配置 SA 消息 的 过 
滤 规 则 一般 使 用 ACL 定义 过 滤 的 规则 )， 并 在 创建 、 转 发 或 接收 SA 消息 时 使 用 这 些 
规则 ， 就 可 以 实现 SA 消息 过 滤 。 

示例 : 对 MSDPSA 进行 控制 。 


SA SA 
(4.4.4.2,229.1.2.3) (4.4.4.3, 229.1.2.4) 
(4.4.4.3,229.1.2.4) 


MSDP 








Register 
(4.4.4.1，229，1，2，3) 
(4.4.42，229，1，2，3) 
(4.4.4.3, 229, 1, 2, 4) 







Soc Receiver 


图 7-76 SA 的 过 滤 控 制 
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1. 在 起 源 RP 上 ， 对 产生 的 SA 消息 中 〈S,G) 表 项 进行 过 滤 。 

7-76 中 ，RP1 收 到 源 的 注册 报 文 ， 立 即 产生 SA， 假 使 RP1 收 到 多 个 〈 源 ， 组 ) 
的 注册 。 

注册 报 文 有 (4.4.4.1，229.1.2.3)、(4.4.4.2，229.1.2.3)、(4.4.4.3，229.1.2.4)， 作 为 
起 源 RP， 要 求 RP1 产生 的 SA 中 仅 携带 (4.4.4.2，229.1.2.3) (4.4.4.3，229.1.2.4) 信息 ， 
其 他 源 / 组 的 注册 报 文 不 触发 产生 SA。 

[R1] acl number 3001 

[Rl-acl-adv-3001] rule permit ip source 4.4.4.2 0 destination 229.1.2.3 0 

[R1-acl-adv-3001] rule permit ip source 4.4.4.3 0 destination 229.1.2.4 0 

[Rl1-acl-adv-3101] quit 

[Rljmsdp 

[Rl-msdp] import-source acl 3001 


[Rl-msdp] quit 

春 mport-source 用 来 对 产生 的 SA 中 的 源 /组 做 过 滤 

2. 通过 配置 接收 或 转发 SA 消息 的 过 滤 规 则 ， 设 备 可 以 在 接收 或 转发 SA 消息 时 ， 
对 其 通告 的 〈《$,G) 转发 项 进行 过 滤 。 

示例 : 在 上 述 通过 的 基础 上 , 继续 控制 SA 的 接收 , 使 R3 仅 收 到 (4.4.4.3, 229.1.2.4) 
信息 。 

#j 过 滤 可 以 发 生 在 SA 向 外 通告 的 方向 上 ， 也 可 以 发 生 在 接收 SA 的 方向 上 

# 配 置 在 R1 外 出 方向 的 过 滤 

[Rllacl number 3002 

[Routerl-acl-adv-3002]rule deny ip source 4.4.4.2 0 destination 229.1.2.3 0 

[Rl-acl-adv-3002] rule permit ip source any destination any 

[R1-acl-adv-3002] quit 

[R1] msdp 

[Ril-msdp] peer 10.1.3.3 sa-policy export acl 3002 


# 

# 或 在 R3 上 在 接收 SA 时 过 滤 源 /组 信息 

[R3] msdp 

[R3-msdp] peer 10.1.1.1sa-policy import acl 3002 

# 

说 明 : 

如 果 调 用 基本 ACL, source 指定 SA 消息 中 的 组 播 源 地 址 .如 果 调 用 高 级 ACL, 则 source 
参数 指定 SA 消息 中 通告 的 组 播 源 的 地 址 ，destination 参数 定义 5A 消息 中 通告 的 组 播 组 
地 址 。 


7.8.6 MBGP 简介 


MulticastBGP (MBGP) 是 BGP 对 传统 的 BGP 协议 扩展 ， 此 处 代表 使 能 组 播 能 力 的 
BGP。RFC 4760 定义 BGP 文 持 多 种 不 同类 型 的 路 由 一 一 IPv4 单 播 、IPv4 组 播 、IPv6 单 
播 和 组 播 等 ， 传 输 单 播 路 由 协议 是 BGP 的 基本 功能 。BGP 针对 不 同 协议 有 不 同 的 路 由 
表 , 如 BGP IPv4 单 播 路 由 表 和 IPv4 组 播 路 由 表 , 区 别 是 单 播 BGP 路 由 会 进入 单 播 路 由 
表 中 ， 用 于 路 由 卫 数据 包 ， 而 组 播 路 由 表 里 面 的 路 由 仅 用 来 做 RPF 检查 。 

不 要 误解 MBGP 是 用 来 取代 PIM 的 协议 , 其 和 static-rpf-route 一 样 ， 用 来 做 RPF 检 
查 。MBGP 是 对 原 有 BGP 协议 的 扩展 ， 所 以 MBGP 仍 使 用 标准 BGP 的 选 路 规则 ， 仍 使 
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用 相同 的 属性 及 策略 控制 技术 。 

使 能 BGP 支持 组 播 ， 仅 需要 以 下 两 点 支持 即 可 ， 这 是 BGP 可 以 支持 多 协议 的 
基础 。 

(1) 在 BGP 建立 邻居 关系 时 ， 通 过 NLRI Capability 协商 双方 是 否 支持 multicast， 
即 协 商 是 否 支持 AFI=1，SubAFI=2; 仅 当 双方 都 支持 AFIUSAFI=1/2， 组 播 协议 路 由 才能 
双向 传递 。 

(2) 组 播 路 由 使 用 BGP 更 新 报 文 来 通告 ， 但 不 同 于 IPv4 单 播 路 由 的 是 ， 在 BGP 更 
新 报 文中 并 没有 NLRI， 而 是 定义 了 两 个 新 的 路 径 属 性 MP REACH NLRI 和 MP_ 
UNREACH_NLRI， 用 来 传递 组 播 路 由 。 其 中 ，MP_REACH_NLRI 用 于 通告 组 播 路 由 ， 
而 MP_UNREACH_NLRI 用 于 撤销 组 播 路 由 。 属 性 的 类 型 代码 分 别 为 14 和 15。 

图 7-77 所 示 是 MP_REACH_NLRI 属性 ， 其 中 包括 组 播 路 由 的 下 一 跳 地 址 信息 ， 组 
播 路 由 前 级 及 其 长 度 等 。 


Address Family Identifier(2 Octets) 


Subsequent Address Family Identifier(1 Octet) 











RFC 1700 






















Length of the Next-Hop Address(1 Octet) 
Network Address of Next-Hop( Variable) 


Number of SNPAa(1 Octet) 













May be Zero 











Length of first SNPA(1 Octet) 


First SNPA(Variable) 


Length of second SNPA(1 Octet) 


Second SNPA(Variable) 






























Length(I Octet) 
Prefix(Variable) 














Length of last SNPA(1 Octet) 


Last SNPA(Variable) 


Network Layer Reachability Information( Variable) 


图 7-77 MP_REACH_NLRI 属性 格式 





同 理 ， 用 于 撤销 路 由 的 MP_UNREACH NLRI 属性 格式 如 图 7-78 所 示 。 


















Subsequent Address Family Identifier(1 Octet) 


3 i Length(I Ocete) 
Withdrawn Routes( Variable) 一 一 一 一 
Prefix( Variable) 


图 7-78 MP_UNREACH_NLRI 属性 格式 







示例 : BGP update 报 文 


说 明 : 
图 7-79 中 组 播 NLRI 和 Next hop 地 址 信息 出 现在 路 径 属性 MP_REACH_NLRI 中 。 
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SBorder Gateway Protocol - UPDATE Message 
Marker: fffffffffffffffffffftfftffftfffffff 
Length: 60 
Type: UPDATE Message (2) 
Withdrawn Routes Length: 0 
Total Path Attribute Length: 37 
Path attributes 
田 Path Attribut 
田 Path Attribut 
针 Path Attribut - MULTI_EXIT_DISC: 2 
日 Path Attribut - MP_REACH_NLRI 

EB Flags: Ox90: Optional, Non-transitive, Complete, Extended Length 


n 


ORIGIN: IGP 
AS_PATH: 13 


Wevis = Optional: Optional 
:0.. .... = Transitive: Non-transitive 
.0. .... = Partial: Complete 
“1. = Length: Extended length 
Type Code: MP_REACH_NLRI (14) 
Length: 13 


Address family: IPv4 (1) 
subsequent address family identifier: Myulticast (2) 
已 Next hop network address (4 bytes) 
Next hop: 10.1.120.1 (4) 
Subnetwork points of attachment: 0 
日 Network layer reachability information (4 bytes) 
B10.1.30.0/24 
MP Reach NLRI prefix length: 24 
MP Reach NLRI IpPv4 prefix: 10.1.30.0 (10.1.30.0) 


图 7-79 ”BGP update 报 文 


7.8.7 MBGP 及 MSDP 案例 


场景 描述 : 

图 7-80 中 , AS123 和 AS456 间 实 现 跨 域 组 播 。 AS 域 间 , 如 图 所 示 , 物理 链 路 G0/0/0 
走 单 播 数据 业务 ，G0/0/1 走 组 播 业 务 。 当 AS 中 组 播 源 活跃 时 ， 其 他 AS 中 接收 者 可 收 
到 组 播 数 据 。 


AS123 AS456 


Loopback0 
10.1.5.5 
Loopback100 
区 1.100.100 


MSDP 


Loopback0 
S1/0/0 10177 
Loopback100 
10.1.100.100 


Source: 10.1.1:1/24 





229.1.2.3 
Receiver 


图 7-80 ”域内 及 域 间 组 播 应 用 


场景 描述 : 
。 在 AS123 内 ，R2 是 RP,， 地址 为 10.1.2.2; 在 AS456 内 ，R5 和 R7 是 RP， 地 址 
是 10.1.100.100 (AnycastRP)。 
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。 组 播 源 在 Rl 后面， 地 址 为 10.1.1.1/24， 接 收 者 在 R8 后 面 ， 地 址 为 10.1.8.8。 

。 全 网 地 址 规划 使 用 10.1.X.Y/24， 网 络 号 X 使 用 路 由 器 之 间 编 号 ， 主 机 地 址 使 用 
路 由 器 编号 。 

。 R3 和 R4 之 间 是 MP-BGP (多 协议 BGP)，G0/0/0 接口 IP 地 址 是 10.1.34.X/24; 
G0/0/1 接口 IP 地 址 是 10.1.134.X/24。 

。 R2 和 R5 间 是 MSDP，R5 和 R7 之 间 是 MSDP。 使 用 Loopback0 接口 建立 邻居 


。 分 析 AS123 中 组 播 源 10.1.1.1 活跃 后 ，AS456 接收 者 接收 组 播 数据 的 过 程 。 
分 析 过 程 : 


。 在 图 7-80 中 ，AS123 和 AS456 是 组 播 路 由 域 ， 每 个 AS 域 中 有 自己 的 RP， 使 
用 BSR 作为 通告 协议 ，BSR 不 需要 在 AS 之 间 通 告 。 
。 图 中 R2、R5、R7 是 RP， 彼 此 之 间 配 置 MSDP， 用 于 通告 SA 消息 。 在 AS456 
中 ， 组 播 节 点 分 布 较 分 散 ， 使 用 AnycastRP 部 署 。 
。 。 当 组 播 源 活跃 时 ，R2 知道 源 活跃 后 ， 用 SA 消息 通告 到 AS456 的 RP。R7 有 下 
游 接收 者 ， 所 以 在 知道 源 的 位 置 后 ， 开 始 建 SPT 树 。 
工作 过 程 分 析 : 
1. 接收 者 出 现在 R8 的 后 面 ，R8 作为 最 后 一 跳 DR， 开 始 向 其 所 知道 的 RP 发 起 RPT 
树 建立 过 程 。 共 享 树 树 根 RP 在 R7 (loopback100 接口 是 10.1.100.100)。 
<R8>display pim rp-info 
VPN-Instance: public net 
PIM-SM BSR RP Number:1 
Group/MaskLen: 224.0.0.0/4 
RP: 10.1.100.100 
Priority: 0 
Uptime: 00:20:34 
Expires: 00:01:56 


<R8>display pim routing-table 
VPN-Instance: public net 
Total 1 (*, G) entry; 0 (S, G) entry 


(*, 229.1.2.3) 
RP: 10.1.100.100 
Protocol: pim-sm, Flag: WC 
UpTime: 00:10:07 
Upstream interface: Seriall/0/0 
Upstream neighbor: 10,1.78.7 
RPF prime neighbor:; 10.1.78.7 
Downstream interface(s) information: 
Total number of downstreams: 1 
1: LoopBack0 
Protocol: static, UpTime: 00:10:07, Expires: - 
2. R2、R5 和 R7 间 MSDP 邻居 已 经 建立 ， 周 期 性 Keepalive 维持 邻居 关系 。 


MSDP 邻居 关系 配置 : 


#R2 


msdp 
peer 10.1.5.5 connect-interface LoopBack0 
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#R5 
msdp 
originating-rp LoopBack0 
peer 10.1.2.2 connect-interface LoopBack0 
peer 10.1.7.7 connect-interface LoopBack0 
# 
#R7 
msdp 
originating-rp LoopBack0 
peer 10.1.5.5 connect-interface LoopBack0 


# 
3，R3 和 R4 间 配 置 BGP，G0/0/0 接口 上 开启 单 播 BGP，G0/0/1 接口 上 开启 组 播 


MBGP。 
<R3> 
## 
bgp 123 
peer 10.1.34.4 as-number 456 
peer 10.1.134.4 as-number 456 
# 
IPv4-family unicast 
undo synchronization 
network 10.1.1.0 255.255.255.0 
network 10.1.2.2 255.255.255.255 
peer 10.1.34.4 enable 
undo peer 10.1.134.4 enable 
# 单 播 BGP 邻居 
IPv4-family multicast 
undo synchronization 
network 10.1.1.0 255.255.255.0 
network 10.1.2.2 255.255.255.255 
peer 10.1.134.4 enable 
# 组 播 BGP 邻居 
#10.1.1.0/24 是 组 播 源 的 网 络 
#10.1.2.2 是 AS123 中 RP 地 址 
<R4> 
从 
bgp 456 
peer 10,1.34.3 as-number 123 
peer 10.1.134.3 as-number 123 
# 
IPv4-family unicast 
undo synchronization 
network 10.1.5.5 255.255.255.255 
peer 10.1.34.3 enable 
undo peer 10.1.134.3 enable 
# 单 播 BGP 邻居 
IPv4-family multicast 
undo synchronization 
network 10.1.5.5 255.255.255.255 
peer 10.1.134.3 enable 


# 组 播 BGP 邻居 
#10.1.5.5 是 AS456 中 RP2 IP 地 址 
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<R4>display bgp multicast routing-table 


BGP Local router ID is 10.1.34.4 
Status codes: *-valid, >- -best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 


Total Number of Routes: 3 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*>10.1.1.0/24 10.1.134.3 807 0 2 

*>10.1.2.2/32 1011343 ， ， 123i 

*>10.1.5.5/32 0.0.0.0 | 


4. 当 Rl 后 面 的 组 播 源 开始 活跃 时 ， Se 跳 路 由 器 DR 开始 产生 单 播 注册 报 文 发 给 
AS123 中 的 RP，10.1.2.2。R2 作为 RP， 在 AS123 中 没有 组 播 接收 者 ，R2 回 注册 一 终止 
报 文 给 R1。 同 时 ，R2 产生 SA 发 给 MSDP 对 等 体 R5。 


说 明 : 
1) R1 会 在 注册 抑制 时 间 超 时 后 重新 开始 发 送 注 册 报 文 。 
2) 生成 的 SA 报 文中 ， 包 含 内 容 如 图 7-81 所 示 。 


田 Internet Protocol Version 4，Srcy 10,;1.2.2 (10.1.2.2), Dst: 10.1.5.5 (10.1.5.5) 
HH Transmission Control Protoco1 ， Src Port: 49509 (49509), Dst Port: 639 (639), Seq: 1, Ack: 1, Len: 20 
Mulrticast Source Discovery protocol 
Type: IPV4 Source-Active (1) 
Length: 20 
Entry Count: 1 
RP Address: 10.1.2.2 (10.1.2.2) 
EB (5,6G) block: 10.1.1.1/32 -> 229.1.2.3 
Reserved: Ox000000 
sprefix len: 32 
Group Address: 229. 3 (229.1.2.3) 
Source Address: 10.1.1.1 (10.1.1.1) 


7-81 SA 报 文 


SA 报 文中 的 RP Address 是 起 源 RP 地 址 ，SA 此 后 在 MSDP 会 话 中 逐 跳 传递 ， 此 值 
不 变 ， 每 个 接收 MSDP 设备 都 是 对 该 RP 地 址 执行 RPF 检查 。 

5. SA 消息 直接 流 给 R5，R5 收 到 SA 后 ， 执 行 RPF 检查 ， 符 合 规 则 1:“ 发 出 SA 
消息 的 对 等 体 就 是 源 RP， 则 接收 该 SA 消息 并 向 其 他 对 等 体 转 发 ”RS5 接收 并 转发 SA 
到 其 他 MSDP 对 等 体 R7。R7 收 到 SA 消息 ,执行 RPF 检查 ,符合 规则 3:“ 如 果 一 台 路 
由 器 只 拥有 一 个 远 端 MSDP 对 等 体 , 则 该 远 端 对 等 体 自动 成 为 RPF 对 等 体 , 路 由 器 接收 
从 该 远 端 对 等 体 发 来 的 SA 消息 。” 

所 以 在 R5 和 R7 的 路 由 器 上 可 看 到 : 


类 . 
<R5>display msdp sa-cache ， 
MSDP Source-Active Cache Information of VPN-Instance: public net 
MSDP Total Source-Active Cache-l entry 
MSDP matched 1 entry 


(10.1.1.1,229.1.2.3) 
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Origin RP: 10.1.2.2 
Pro: ?, AS:? 
Uptime: 00:00:05, Expires: 00:05:55 
# 
<R7>display msdp sa-cache 
MSDP Source-Active Cache Information of VPN-Instance: public net 
MSDP Total Source-Active Cache-l entry 
MSDP matched 1 entry 


(10.1.1.1, 229.1.2.3) 

Origin RP: 10.1.2.2 

Pro: ?,AS: ? 

Uptime: 00:00:07, Expires: 00:05:53 

6. R7 收 到 SA， 并 且 R7 下 游 有 组 播 接 收 者 存在 。R7 在 知道 组 播 “ 源 ”之 后 ， 开 
始 向 源 地 址 (10.1.1.1) 发 送 (10.1.1.1, 229.1.2.3) Join 报 文 ，R7 查 卫 路 由 表 ， 根据 路 由 
指向 ，SPT 树 条 目 (10.1.1.1, 229.1.2.3) 依次 在 R7、R6、R5 和 R4 上 建立 。 

7. R3 和 R4 路 由 器 是 各 自 AS 中 的 ASBR, 彼此 双 线 互联 。 在 mBGP 中 , 保证 G0/0/0 
(10.1.34.0/24 网 段 ) 链 路 走 AS 间 的 单 播 数据 流量 ;G0/0/1 (10.1.134.0/24 网 段 ) 链 路 走 
AS 间 的 组 播 数据 流量 。 

R4 收 到 (10.1.1.1, 229.1.2.3) Join 后 ， 开 始 建 SPT 树 ， 执 行 RPF 检查 确定 到 组 播 源 
10.1.1.1 的 路 径 。 


<R4>display multicast rpf-info 10.1.1.1 

VPN-Instance: public net 

RPF information about source: 10.1.1.1 
RPF interface: GigabitEthernet0/0/1, RPF neighbor: 10.1.134.3 
Referenced route/mask: 10.1.1.1/32 
Referenced route type: mbgp 
Route selection rule: preference-preferred 
Load splitting rule: disable 


说 明 : 

执行 RPF 检查 可 以 参考 mBGP 表 ， 组 播 静 态 RPF-route， 单 播 路 由 表 。 根 据 RPF 查 表 规 
则 ， 在 mBGP， 组 播 静 态 路 由 ， 单 播 路 由 表 中 各 自 找 满足 10.1.1.1 的 路 由 ， 然 后 再 比较 路 
由 协议 的 好 坏 。 本 例 中 ， 组 播 静态 路 由 和 单 播 路 由 表 中 都 没有 10.1.1.1 对 应 的 路 由 ， 所 以 
mBGP 路 由 是 唯一 可 用 的 路 由 。 


8. R3 收 到 G0/0/1 接口 的 (10.1.1.1, 229.1.2.3) Join 后 ， 开 始 建 (10.1.1.1, 229.1.2.3 ) 
组 播 条 目 ， 此 过 程 一 直 重 复 ， 直 至 到 R1。 


<R3>display pim routing-table 
VPN-Instance: public net 
Total 0 (*, G) entry; 1 (S, G) entry 


(10.1.1.1 229.1.2.3) 
RP: 10.1.2.2 
了 Protocol: pim-sm, Flag: SPT 
UpTime: 00:00:13 
Upstream interface: Seriall/0/1 
Upstream neighbor: 10.1.23.2 
RPF prime neighbor: 10.1.23.2 
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_Downstream interface(s) information: 
Total number of downstreams:1 
1: GigabitEthernet0/0/1 
‘ Protocol: pim-sm, UpTime: 00:00:13, Expires: 00:03:17 
9. 在 组 播 SPT 树 建 立 过 程 中 ， 由 于 SA 消息 不 负责 携带 组 播 数据 ， 所 以 AS456 中 
的 接收 者 无 法 收 到 组 播 数 据 。 只 要 组 播 源 活跃 ， 组 播 数据 会 一 直 沿 SPT 树 流 到 R7。 最 
后 一 跳 路 由 器 R8 会 触发 SPT 切换 。 
10. 当 组 播 源 不 再 活跃 或 接收 者 离开 后 ， 组 播 数据 不 再 流下 来 。 


7.9 思考 题 


1. IGMP 的 加 入 和 离开 机 制 在 不 同 版 本 下 有 什么 不 同 ? 

2. 组 播 接 收 者 存在 的 环境 下 ，IGMP Snooping 交换 机 如 果 开 启 Proxy 功能 和 不 开启 
Proxy 功能 ， 这 两 种 情况 下 ， 对 IGMP 路 由 器 在 性 能 上 有 什么 影响 ? 为 什么 ? 

3. 开启 状态 刷新 之 后 , 对 PIM DM 的 扩散 机 制 有 什么 影响 ?是否 需要 周期 性 泛 潜 ? 

4. PIM SM 下 共有 几 处 SPT 切换 ? 每 次 切换 的 触发 条 件 是 什么 ?为 什么 一 定 要 发 生 


切换 ? 
5. 为 什么 BSR 同样 是 泛 洪 ， 它 不 同 于 OSPF 泛 洪 ， 为 什么 BSR 在 接收 通告 时 需要 
有 RPF 检查 ? 


6. PIM Assert 机 制 在 DM 下 和 SM 下 有 什么 不 同 吗 ? 

7. PIM SSM 和 IGMPv3 一 起 工作 ， 如 果 和 IGMPv2 一 起 工作 ， 需 要 做 些 什么 ? 

8. MSDP 是 周期 通告 SA 吗 ? 如 果 当 前 RP 下 没有 接收 者 ， 它 作为 MSDP 设备 会 转 
发 或 产生 SA 吗 ? 

9. PIM SM 下 空 注册 报 文 频繁 发 送 的 原因 是 什么 ?如 果 RP 没有 及 时 回应 注册 一 终 
止 报 文 ， 请 问 接 下 来 头 一 跳 DR 会 做 什么 ? 

10. 图 7-82 中 AnycastRP 组 播 应 用 。 
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组 播 组 229.1.2.3 接收 者 在 R7 后 面 。 组 播 源 在 Rl 后面 。 图 7-82 中 ， 每 条 链 路 的 成 
本 都 一 样 。 图 中 IP 地 址 使 用 物理 路 由 器 的 编号 , 例 , R2 和 R5 间接 口 IP 地 址 为 10.1.25.2 
和 10.1.25.5， 网 络 为 10.1.25.0/24。 网 络 中 RP 地 址 为 10.1.1.100， 分 别 是 RP1 和 RP2。 
请 分 析 图 中 ， 组 播 接 收 者 接收 数据 的 过 程 。 
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第 八 章 
MPLS 及 MPLS VPN 


多 协议 标签 交换 ( Multi-Protocol Label Switching ，MPLS ) 是 新 一 代 的 卫 高 速 骨 于 网 络 
交换 技术 , 它 在 无 连接 的 他 网 络 上 引入 面向 连接 的 标签 交换 技术 , 将 第 三 层 路 由 技术 和 
第 二 层 交 换 技术 结合 起 来 ,使 其 既 有 了 IP 路 由 的 灵活 性 ,又 有 二 层 交换 的 简捷 性 ,MPLS VPN 
是 MPLS 上 一 种 应 用 广泛 的 L3VPN 技术 ， 它 通过 MP-BGP 传递 客户 VPN 路 由 ， 使 用 标签 
隧道 实现 VPN。 本 章 介绍 了 LDP 协议 ， 间 结合 实例 分 析 了 MPLS VPN 架构 、 技 术 原 理 、 
PE-CE 路 由 协议 及 Internet 接 入 技术 等 ， 章 节 末尾 还 阐述 了 器 域 VPN 技术 。 


本 章 包含 以 下 内 容 : 


© MPLS 基础 介绍 

© LDP 基本 概念 及 原理 分 析 
© LDP 案例 分 析 

© MPLS VPN 基础 介绍 

© MPLS VPN 工作 原理 分 析 
© MPLS VPN 的 Internet 接 入 
© 跨 域 VPN 解决 方案 介绍 
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8.1 MPLS 基础 


8.1.1 什么 是 MPLS 


多 协议 标签 交换 MPLS 是 一 种 基于 标签 的 数据 包 交 换 技术 , 介 于 L2 和 LIL3 之 间 。 数 
据 包 进入 MPLS 网 络 时 会 被 封装 上 一 个 短 而 定 长 的 标签 ， 在 转发 过 程 中 只 需 根据 报 文中 
的 标签 转发 而 无 需 查看 上 层 报头 信息 。 当 数据 包 离 开 MPLS 网 络 时 ， 所 有 标签 信息 都 会 
被 剥离 掉 。 所 以 ， 路 由 器 不 再 需要 基于 数据 包 的 IP 信息 来 进行 路 由 表 查 找 并 进行 转发 ， 
而 只 需要 关心 报 文 的 标签 信息 ， 总 结 一 句 话 ，MPLS 其 实 就 是 一 种 隧道 技术 。 


8.1.2 MPLS 的 产生 背景 


MPLS 起 初 是 为 提高 数据 包 转 发 效率 而 产生 的 。 因 为 早期 的 路 由 器 是 用 软件 的 方式 
来 进行 报 文 转发 处 理 的 ， 每 一 跳 都 需要 根据 报 文 目的 他， 使 用 最 长 掩 码 匹配 原则 查找 路 
由 表 进 行 转发 ， 效 率 比较 低 ， 尤 其 是 在 业务 流量 大 的 时 候 ， 对 设备 的 性 能 影响 特别 大 。 
为 避免 这 个 问题 ， 有 些 用 户 使 用 ATM 网 络 来 承载 自己 的 业务 。ATM 是 一 种 基于 虚 电 路 
的 二 层 交 换 技 术 ， 使 用 固定 长 度 的 信 元 方式 来 进行 数据 的 转发 ， 这 种 方式 容易 用 硬件 来 
实现 ， 从 而 提升 数据 转发 效率 。 然 而 ，ATM 技术 实现 比较 复杂 ,部署 难度 和 成 本 都 很 高 ， 
这 让 很 多 用 户 望 而 却步 。 

MPLS 技术 就 在 这 种 背景 下 诞生 了 ，MPLS 技术 避免 了 传统 卫 转发 的 繁复 过 程 ， 也 
背 鉴 了 ATM 使 用 标签 转发 和 面向 连接 的 特点 。 在 当时 ， 可 以 认为 MPLS 技术 是 一 大 创 
新 。 但 是 后 来 ， 随 着 芯片 技术 -比如 ASIC) 的 不 断 改进 和 提升 ， 使 用 IP 转发 方式 的 效 
率 也 很 高 ，MPLS 在 这 一 方面 发 挥 的 优势 渐渐 不 明显 了 。 在 今天 的 网 络 中 ，MPLS 技术 
已 经 被 扩展 到 了 新 的 应 用 领域 ,为 网 络 提供 一 些 增值 业务 , 比如 MPLS VPN 或 MPLS TE， 
这 两 项 技术 正 被 越 来 越 多 的 企业 和 服务 提供 商 部 署 使 用 。 


8.1.3 MPLS 网 络 结构 及 术语 解释 


MPLS 网 络 的 基本 结构 如 图 8-1 所 示 , MPLS 域 通过 边界 路 由 器 连接 用 户 的 IP 网 络 ， 
一 人 台 边 界 路 由 器 可 以 同时 连接 到 多 个 用 户 的 IP 网 络 ,在 MPLS 域内 的 基本 网 元 是 标签 交 
换 路 由 器 (LSR，Label Switching Router)，LSR 具有 标签 分 配 和 基于 标签 转发 数据 报 文 
的 能 力 。 用 户 的 IP 数据 流 进 入 MPLS 域 后 ， 报 文 会 以 标签 的 方式 经 过 每 一 台 LSR。 为 
转发 带 标签 的 数据 报 文 ,每 台 LSR 都 会 建立 一 张 标签 转发 表 ， 标 签 转发 表 就 是 通过 标签 
分 发 协议 依据 路 由 表 产 生 和 建立 的 。 

MPLS 相关 术语 解释 如 下 。 

LSR (标签 交换 路 由 器 ): 运行 了 MPLS， 具 有 标签 分 配 和 标签 转发 能 力 的 路 由 器 。 

LER 标签 边界 路 由 器 ): 具有 标签 分 配 能 力 ， 并 且 同 时 连接 耻 和 MPLS 网 络 的 路 
由 器 。 分 入 站 的 LER 和 出 站 的 LER。 入 站 的 LER 负责 对 接收 到 的 IP 报 文 压 入 标签 ， 然 
后 转发 进 MPLS 网 络 ; 出 站 的 LER 负责 给 离开 MPLS 网 络 的 报 文 移 除 标 签 ， 然 后 根据 
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图 8-1 MPLS 网 络 结构 


FEC (转发 等 价 类 ): 用 来 描述 具有 相同 特征 的 报 文 在 转发 过 程 中 被 LSR 以 相同 方式 处 
理 。 在 MPLS 中 ， 一 个 FEC 使 用 同一 个 标签 来 标记 (也 就 是 说 一 个 FEC 的 报 文 走 的 是 同一 
条 LSP)。 划 分 FEC 的 方式 有 很 多 ， 比 如 去 往 相同 目的 前 级 的 报 文 就 是 一 个 FEC， 也 可 以 使 
用 源 地 址 、 目 的 地 址 、 源 端口 、 目 的 端口 、 协 议 类 型 、VPN 等 要 素 任意 组 合 来 划分 一 个 FEC。 

LSP (标签 转发 路 径 ); MPLS 报 文 经 过 的 路 径 。 一 条 LSP 起 始 LSR 叫 入 站 的 LER， 
最 后 一 台 LSR 叫 出 站 的 LER， 可 以 把 一 条 LSP 理解 为 一 个 单 向 的 隧道 。LSP 还 支持 符 
套 ， 也 就 是 一 条 LSP 可 以 在 另 一 条 LSP 内 部 ， 这 被 用 于 运营 商 的 一 些 应 用 场景 ， 比 如 
CSC。 可 以 使 用 静态 和 动态 两 种 方式 来 创建 一 条 LSP, 在 8.1.5 节 会 介绍 一 下 静态 建立 的 
方法 及 注意 事项 ， 在 8.2 节 会 详细 介绍 使 用 标签 分 发 协议 动态 建立 LSP 的 方法 。 

如 图 8-2 所 示 ， 这 时 假设 左 侧 IP 网 络 要 访问 右 侧 的 IP 网 络 ， 当 报 文 进入 MPLS 域 
边界 的 LSR 后 被 封装 上 标签 (在 原始 人 报头 之 前 )，MPLS 网 络 中 间 的 路 由 器 只 是 根据 
交换 标签 信息 来 传递 该 报 文 (根据 标签 转发 表 把 报 文 携带 的 标签 替换 成 男 一 个 标签 )。 当 
报 文 到 达 MPLS 域 男 外 一 侧 边界 LSR 时 , 数据 包 被 解 封装 成 原始 的 他 报 文 ( 移 除 标签 )， 
然后 转发 至 IP 网络。 













IP 
ET 
“Ey 本 


9 
AS 卫 


LER Label Edge Router 
LSR Label Switch Router 
LSP Label Switch Path 






图 8-2 MPLS 网 络 标签 的 处 理 


517 ED 


| HCIE 路 由 交换 学 习 指 南 | 


8.1.4 MPLS 标签 格式 


在 帧 模式 的 MPLS 网 络 中 ， 标 签 位 于 报 文 的 二 层 头 部 和 三 层 头 部 之 间 ， 一 个 MPLS 
标签 长 度 为 32bit， 有 固定 的 格式 ， 如 图 8-3 所 示 。 





es Sy 20bits 3bits 1bit 8bits__ 已 Pe 
Wu ”2 
mes > 





L2 header 


图 8-3 MPLS 标签 格式 


对 其 中 的 字段 解释 如 下 。 

Label Value: 标签 的 前 20bit 表示 标签 值 标签 的 数字 标识 )， 所 以 标签 值 的 范围 为 
0 到 1048575， 但 是 ， 标 签 值 0 到 15 是 特殊 用 途 的 标签 ， 这 里 列举 几 个 常见 的 特殊 标签 
的 用 途 : 

标签 0: IPv4 显 式 空 标签 ; 

标签 1: 路 由 器 报警 标签 ; 

标签 2: IPv6 显 式 空 标签 ; 

标签 3: 隐 式 空 标签 ; 

标签 14: OAM 路 由 器 报警 标签 ; 

其 他 0 一 15 之 间 的 被 保留 标签 的 功能 目前 暂时 没有 定义 。 

EXP: EXP 是 一 个 3bit 的 实验 字段 ， 之 所 以 这 么 叫 实验 字段 ， 是 因为 在 MPLS 设计 
之 初 还 没 确定 该 字段 的 作用 ， 现 在 主要 用 来 做 QoS。 

S: S 位 叫 栈 底 位 (BoS，Bottom of Stack)。 某 些 特殊 应 用 场景 〈 比 如 MPLS VPN、 
AIoM) 下 ， 需 要 一 个 MPLS 报 文 携 带 多 个 标签 (理论 上 可 携带 的 标签 数量 是 没有 限制 
的 )。 这 些 标签 组 成 一 个 堆栈 ， 堆 栈 底部 的 标签 ( 紧 挨 着 人 P 报头 ) S 位 的 值 为 1， 其 他 标 
签 的 S 位 的 值 都 为 0， 如 图 8-4 所 示 。 


(mEthernet II, Src: HuaweiTe_3d:2b:2a (00:e0:fc:3d:2b:2a), Dst; HuaweiTre_6e:7f:be (00:e0:fc:6e:7f:be) 
(EMultiprotocol Label switching Header, Label: 1028; Exp: 0, Ss: 0 TTL: 254 
MPLS Label: 1028 
MPLS Experimental Bits; 0 
MPLS Bottom Of Label stack: 0 
MPLS TTL: 254 
BG Multiprotocol Label switching Header, Label; 1025, Exp: 0, 5s: 1, TTL: 254 
MPLS Label: 1025 
MPLS Experimental Bits: 0 
MPLS Bottom Of Label stack: 1 
MPLS TTL: 254 
四 Internet Protocol, Src: 10.4.4.4 (10.4.4.4), Dst: 10.5.5.5 {10.5.5.5) 
EB Internet Control Message Protocol 


图 8-4 MPLS 标签 堆栈 


TTL: 最 后 8bit 叫 TTL， 作 为 报 文 的 生存 周期 ， 作 用 跟 了 P 报头 中 的 TTL 是 一 样 的 ， 
在 MPLS 网 络 中 每 进行 一 次 标签 交换 操作 ， 最 外 层 标签 中 的 TTL 就 减 1，TTL 一 旦 减 为 
0, 报 文 就 被 丢弃 ， 从 而 预防 数据 包 的 转发 环 路 。IP 报 文 进入 MPLS 网 络 后 , 标签 的 TTL 
值 可 以 使 用 初始 值 255， 也 可 以 直接 拷贝 IP 头 中 的 TTL 值 。 
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8.1.5 LSP 的 建立 


LSP 的 建立 分 为 静态 和 动态 两 种 方法 。 动 态 LSP 是 使 用 标签 分 发 协议 (比如 LDP) 
建立 的 ， 在 8.2 节 将 会 详细 介绍 LDP 的 工作 原理 ， 这 里 我 们 先 来 了 解 一 下 静态 LSP 的 
建立 方法 。 静 态 LSP 是 由 管理 员 手 工 配 置 的 ， 所 以 静态 LSP 不 需要 使 用 任何 标签 分 发 
协议 ， 没 有 必要 交互 任何 控制 信息 ， 资 源 开销 小 。 使 用 静态 LSP 还 可 以 避免 因为 标签 
分 发 协议 (比如 LDP〉 故 障 而 导致 MPLS 业务 流量 丢失 ， 所 以 静态 LSP 一 般 是 用 来 保 
障 关键 应 用 的 业务 连续 性 。 但 是 由 于 静态 LSP 是 由 手工 配置 的 ， 无 法 自动 适应 网 络 拓 
扑 的 变化 ， 当 网 络 出 现 故 障 后 还 需要 管理 员 和 干预， 管理 相对 比较 麻烦 ， 一 般 适 用 于 小 
型 网 络 。 

一 条 静态 LSP 经 过 的 LSR 共有 3 种 角色 : Ingress、Transit、Egress。Ingress 节点 负 
责 为 接收 到 的 IP 报 文 压 入 标签 并 送 入 LSP 隧道 ，Transit 节点 负责 以 标签 交换 的 方式 转 
发 报 文 ，Egress 节点 负责 移 除 报 文中 的 标签 并 将 报 文 转发 至 卫 网 络 。 建 立 静态 LSP 时 ， 
管理 员 为 各 LSR 手工 分 配 标签 时 需要 遵循 的 原则 是 : 前 一 节点 (上游 节 点 ) 出 标签 的 值 
等 于 下 一 个 节点 (下游 节点 ) 入 标签 的 值 ， 具 体 要 进行 以 下 操作 。 

e。 在 Ingress 节点 配置 此 LSP 的 目的 地 址 、 下 一 跳 和 出 标签 的 值 。 

。 在 Transit 配置 此 LSP 的 入 接口 、 与 上 一 节点 出 标签 相等 的 入 标签 的 值 、 对 应 

的 下 一 跳 和 出 标签 的 值 。 

。 在 Egress 配置 此 LSP 的 入 接口 及 与 上 一 节点 出 标签 相等 的 入 标签 的 值 。 

如 图 8-5 所 示 ，PC1 与 PC2 之 间 通 信 的 数据 流 需 要 经 过 中 间 的 MPLS 网 络 。 由 于 
LSP 是 单 向 的 隧道 ， 要 想 实 现 PC1 和 PC2 之 间 的 双向 通信 ， 需 要 建立 两 条 LSP (图 中 的 
LSP1 和 LSP2)，LSP1 用 于 PC1 到 PC2 方向 的 报 文 转发 ， LSP2 用 于 PC2 到 PC1 方向 的 
报 文 转发 。LSP1 的 Ingress 节点 为 LER1 (出 标签 为 100)、Transit 节点 为 LSR1 (入 标签 
为 100, 出 标签 为 200)、Egress 节点 为 LER2 (入 标签 200); LSP2 的 Ingress 节点 为 LER2 
(出 标签 为 300)，Transit 节点 为 LSR1( 入 标签 为 300， 出 标签 为 400)，Egress 节点 为 
LER1 (入 标签 为 400)。 


| 
LSPl 1 
1 





| 0 i 


华 1.1.1.1/24 :2 


PC1 PC2 
8-5 静态 LSP 


LER1、LSR1 和 LER2 具体 的 配置 过 程 如 下 。 
(1) 基本 配置 (这 里 以 LERI1 为 例 )。 
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配置 LSR-ID 并 且 分 别 在 全 局 和 接口 上 使 能 MPLS， 如 下 输出 所 示 。 
# 


sysname LER1 
# 
并 
mpls lsr-id 10.1.1.1 
mpls 
# 
interface GigabitEthemet0/0/1 
ip address 10.1.12.1 255.255.255.0 


mpls 
# 


(2) 建立 LSP1。 

。 Ingress 节点 配置 : 

[LER1]static-lsp ingress LSP1 destination 2.2.2.0 24 nexthop 10.1.12.2 out-label 100 

# 指 定 LSP1 的 FEC 为 2.2.2.0/24， 使 用 出 标签 100 将 报 文 转发 至 下 一 跳 10.1.12.2。 

e Transit 节点 配置 : 

[LSR I]static-lsp transitLSP1 incoming-interface gi0/0/0 in-label 100 nexthop 10.1.23.3 out-label 200 

#Tansit 节点 从 接口 G0/0/0 接收 到 带 有 标签 为 100 的 报 文 , 将 标签 替换 为 200 后 转发 
至 下 一 跳 10.1.23.3。 

。 ”Egress 节点 配置 : 

[LER2]static-lsp egress LSP1 incoming-interface gi0/0/0 in-label 200 

#Egress 节点 从 入 口 为 G0/0/0 接收 到 入 标签 为 200， 移 除 标签 后 以 IP 的 方式 转发 
出 去 。 

(3) 建立 LSP2。 

。 Ingress 节点 配置 : 

[LER2]static-lsp ingress LSP2 destination 1.1.1.0 24 nexthop 10.1.23.2 out-label 300 

e ”Transit 节点 配置 : 

[LSR1]static-lsp transit LSP2 incoming-interface gi0/0/1 in-label 300 nexthop 10.1.12.1 out-label 400 

。 ”Egress 节点 配置 : 

[LER1]static-lsp egress LSP2 incoming-interface gi0/0/1 in-label 400 


(4) 查看 静态 LSP 的 状态 信息 ， 如 下 输出 所 示 。 


[LER1]display mpls static-lsp 

Name FEC IO Label IO If Status 
LSP1 2.2.2.0/24 NULL/100 -GEOO/1 Up 
LSP2 a 400/NULL GEQ/0/1/- Up 
[LSR1]dis mpis static-lsp 
Name FEC IO Label IO 下 Status 
LSP1 到 100/200 GE0/0/0/GE0/0/1 Up 
LSP2 大 ~ 300/400 GE0/0/1/GE0/0/0 Up 
[LER2]dis mpls static-lsp 

Name FEC IO Label -IO 下 Status 
LSP1 w= 200/NULL GE0/0/0/- Up 
LSP2 1.1.1.0/24 NULL/300 -/GE0/0/0 


Up 
由 上 面 的 输出 信息 可 知 静态 LSP 已 经 在 每 个 运行 了 MPLS 的 节点 建立 好 。 这 时 可 以 
通过 这 两 条 静态 LSP 正常 跑 业 务 流量 了 。 
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e 在 中 间 Transit 节点 配置 指向 目标 的 nexthop 时 ,这 个 nexthop 可 以 和 该 目标 在 本 地 
路 由 表 中 的 nexthop 不 一 致 ; 

e。 虽然 静态 LSP 不 依赖 动态 路 由 ， 但 是 在 LSP 的 Ingress 节点 处 ，LSP 对 应 的 FEC 在 
本 地 路 由 表 中 需要 存在 相应 的 路 由 前 缓 , 为 LSP 指定 的 下 一 跳 也 要 和 本 地 路 由 表 
一 竹 ， 


案例 分 析 1: 静态 LSP 

如 图 8-6 所 示 ， 用 户 之 间 (PC1-PC2) 的 人 P 业务 流量 在 穿越 MPLS 域 时 ， 如 果 使 用 
动态 LSP， 假 设 用 户 最 终 使 用 的 路 径 是 LER1-LSR1-LSR3-LER2， 因 为 动态 LSP 的 建立 
是 依赖 路 由 表 (FEC) 的 ， 如 果 到 目标 的 路 由 有 发 生变 化 ， 那 么 LSP 使 用 的 路 径 也 会 随 
着 路 由 的 变化 而 变化 。 如 果 用 户 要 求 业务 流量 走 特 定 的 一 条 路 径 ， 比 如 LER1-LSR1- 
LSR2-LSR3-LER2， 不 管 动态 路 由 的 切换 路 径 如 何 ， 都 使 用 该 路 径 ， 除 非 该 路 径 发 生 
故障 。 





图 8-6 静态 LSP 案例 1 


如 图 8-6 所 示 ， 假 设 MPLS 域 中 基本 配置 (包括 路 由 协议 ) 已 经 设置 好 ， 而 且 相 应 
FEC 〈100.1.1.0/24) 的 动态 LSP 已 经 建立 好 ， 用 户 PC1 访问 到 100.1.1.0/24 的 数据 流 可 
以 通过 这 条 动态 LSP。 现 在 根据 需求 ， 该 用 户 的 数据 流 需 要 经 过 路 径 LER1-LSR1- 
LSR2-LSR3-LER2 去 转发 ， 我 们 根据 案例 1 的 配置 方法 ， 可 以 在 LER1-LSR1-LSR2- 
LSR3-LER2 上 配置 一 条 静态 LSP， 那 么 LER1 作为 该 LSP 的 Ingress 节点 ， 其 配置 如 下 : 


[LER1]static-lsp ingress LSP100 destination 100.1.1.0 24 nexthop 100.1.12.2 out-label 100 


后 面 各 节点 的 配置 可 以 参考 案例 1， 在 这 里 不 再 著述 。 
总 湖 : 
如 果 LSR1 上 同时 动态 建立 了 到 100.1.1.0/24 的 LSP, 那么 此 时 使 用 静态 还 是 动态 的 呢 ? 
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案例 分 析 2: 人 静态 LSP 的 会 取 
如 图 8-7 所 示 , Sitel 中 的 主机 PC1 和 Site2 中 的 主机 PC2, 分 别 通过 两 条 静态 的 LSP 
来 访问 Site3 的 主机 PC3。 


Sitel 本 天 














EO/0/1 GO/0/0 


Site3 
100.1.1.0/24 
GO/O/1 E0/0/1 





E/N GO/0/O 


、\ 吝 过 
种 这 


图 8-7 静态 LSP 案例 2 


在 图 8-7 中 ，LSP1 是 Sitel 访问 Site3 的 LSP 在 LER1 和 LSR1 之 间 的 部 分 ，LSP 2 
是 Site2 访问 Site3 的 LSP 在 LER2 和 LSRI 之 间 的 部 分 ,这 两 段 LSP 在 LSR1 汇聚 ,LSR1 
然后 将 这 两 段 的 LSP 的 入 标签 都 对 应 到 同一 个 出 标签 和 下 一 跳 ， 从 而 完成 了 将 多 个 LSP 
汇聚 成 一 条 LSP， 下 面 显示 了 LSR1 的 LSP 信息 ， 如 下 输出 所 示 。 


[AR3]display mpls static-lsp 

Name FEC IO Label IO 正 Status 

了 100/300 GE0/0/0/GEO/OV1 Up 
200/300 GELO/O/GEOOA Up 


下 面 的 输出 信息 中 ， 入 标签 100 对 应 的 是 LER1 的 出 标签 ,入 标签 200 对 应 的 是 LER2 
的 出 标签 ， 最 终 这 两 个 入 标签 被 交换 成 同一 个 出 标签 ， 达 到 了 两 条 LSP 聚合 的 目的 。 


说 明 : 
在 配置 Transit 节点 时 ， 不 同 LSP 的 入 标签 是 不 能 一 样 的 。 


8.2 ”LDP 协议 


在 前 文中 提 到 过 建立 LSP 有 静态 和 动态 两 种 方法 , 其 中 动态 建立 LSP 需要 路 由 器 运 
行 标签 分 发 协议 ， 这 一 节 介 绍 的 LDP 协议 就 是 其 中 最 重要 的 一 个 标签 分 发 协议 。LDP 
协议 在 RFC3036 中 被 定义 ， 在 MPLS 网 络 中 ， 路 由 器 通过 运行 LDP 协议 为 每 条 内 部 路 
由 映射 一 个 标签 ， 然 后 再 将 标签 信息 通告 给 所 有 邻居 ， 路 由 器 之 间 通 过 这 种 方式 来 建立 
标签 转发 表 ， 最 终 形成 LSP， 当 网 络 拓扑 发 生变 化 时 ，LDP 还 会 实时 地 响应 这 种 变化 ， 
动态 建立 LSP。 


8.2.1 LDP 的 基本 概念 
在 介绍 LDP 工作 原理 之 前 ， 先 了 解 一 下 MPLS 的 基本 概念 。 
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1. 标签 空间 

LDP 分 配 标签 的 空间 有 两 种 。 

一 种 是 基于 接口 的 标签 空间 : 每 个 接口 通告 的 标签 范围 是 唯一 的 ， 如 图 8-8 所 示 ， 
LER1 为 同一 条 FEC 在 不 同 接口 通告 的 标签 是 不 同 的 。 

二 是 基于 平台 的 标签 空间 : 标签 分 配 时 并 不 是 在 每 个 接口 下 唯一 ， 而 是 从 整 台 LSR 
中 来 分 配 标签 的 ， 如 图 8-9 所 示 ，LER1 为 同一 条 FEC 通告 一 个 标签 。 











FEC! | LSR1 FEC1 LSRI 
Label: 1025 Label: 1025 
LER 1 和 mwl LER1 B29 
FEC1 FEGC!] 
Label: 1026 LSR2 Label: 1025 LSR2 


图 8-8 ”基于 接口 的 标签 空间 图 8-9 ”基于 平台 的 标签 空间 


下 面 显示 了 华为 设备 默认 使 用 的 标签 空间 ， 位 于 LSR-ID 后 面 的 数字 0 表示 华为 默 
认 采 用 的 标签 空间 是 基于 平台 的 ， 如 下 输出 所 示 。 

[AR1]display mpls ldp session ， . 

PeerID Status LAM SsnRole SsnAge KASent/Rev 


i 


10.1,.22:0 Operational DU Passive 0000:00:00 1/1 


TOTAL: 1 session(s) Found. 

2. 上 游 LSR/ 下 游 LSR 

上 游 和 下 游 是 根据 数据 报 文 的 流向 来 定义 的 ,数据 流 总 是 由 上 游 发 往 下 游 ,如 图 8-10 
所 示 , 对 于 网 络 172.16.1.0/24 来 说 ,LSR3 是 最 后 一 跳 路 由 器 ,其 上 游 是 LSR2, 而 LSR2 
同时 又 是 LSR1 的 下 游 。 标 签 的 通告 方向 可 以 是 下 游 通告 给 上 游 ， 上 游 也 可 以 将 其 标签 
通告 给 下 游 ， 具 体 通告 的 方法 在 下 文中 会 详细 介绍 。 


向 上 游 分 发 Label 向 上 游 分 发 Label 





一 LSR2 ~ LSR3 
数据 流向 下 游 数据 流向 下 游 172.16.1.0/24 
图 8-10 上 游 和 下 游 LSRP 


3. PHP (倒数 第 二 跳 弹 出 ) 

在 MPLS 网 络 的 出 站 LER 处 ， 首 先 需 要 对 接收 的 报 文 进行 标签 移 除 (通过 查找 标 
签 转发 表 )， 然 后 再 进行 FIB 表 的 查找 并 转发 ， 由 于 进行 了 两 次 查 表 操 作 ， 所 以 过 程 比 
较 耗 时 。 如 果 到 达 出 站 LER 的 流量 较 大 ， 会 对 设备 性 能 造成 一 定 的 影响 。 为 减轻 出 站 
LER 的 负担 ， 标 签 在 到 达 出 站 LER 之 前 就 被 弹出 ， 这 样 在 报 文 到 达 出 站 LER 时 已 经 是 
IP 报 文 了 ， 只 需要 查找 IP 转发 表 就 转发 出 去 ， 这 样 提高 了 出 站 LER 的 工作 效率 。 


523 Wl 


| HCIE 路 由 交换 学 习 指 南 | 








为 使 标签 在 到 达 出 站 LER 之 前 就 被 弹出 ， 使 用 了 一 个 特殊 的 标签 “3” 这 个 标 
签 也 叫 隐 式 空 标签 ， 如 图 8-11 所 示 。 
2.FEC: 172.16.1.0/24 1.FEC: 172.16.1.0/24 
Label: 1024 Label: 3 
| isowl3| [Lals| | 
村 Ez EE 
民 民 尺 
LSRI1 LSR2 LSR3 
172.16.1.0/24 
3.Label 值 为 1024 的 报 文 4. 因为 out Label 为 “3” 所 以 弹出 
图 8-11 PHP 机 制 


在 图 8-11 所 示 的 场景 中 , 对 于 网 络 172.16.1.0/24 来 说 , LSR3 作为 最 后 一 跳 路 由 器 ， 
向 上 游 邻居 LSR2 通告 一 个 标签 值 为 3 的 标签 ， 当 LSR2 接收 到 去 往 该 目标 网 络 的 报 文 
( 带 有 标签 值 为 1024 的 报 文 ) 时 ,会 将 1024 标 签 进 行 弹 出 操作 后 再 转发 至 下 游 邻 居 LSR3， 
也 就 是 说 ，3 号 标签 实际 上 是 代表 一 种 弹出 操作 ， 而 不 是 实际 需要 携带 的 标签 ， 所 以 叫 
隐 式 空 标签 。 除 了 隐 式 空 标签 外 ， 还 有 显 式 空 标签 ， 这 个 在 MPLS VPN 中 再 进行 相关 
介绍 。 


8.2.2 LDP 的 报 文 


LDP 报 文 是 基于 TCP 的 (Hello 报 文 基 于 UDP), 端口 号 为 646， 并 且 报 文 格式 是 基 
于 TLV 的 方式 来 封装 的 , LDP 报 文 分 为 头 部 和 报 文 内 容 两 部 分 , LDP 报头 格式 如 图 8-12 
所 示 。 









LDP Identifier 


图 8-12 LDP PDU 头 部 格式 


对 其 中 的 字段 解释 如 下 。 

Version: 2Byte 无 符号 整数 值 ， 表 示 LDP 协议 版 本 号 ， 目 前 LDP 协议 版 本 号 为 0x01。 

PDU Length: 2Byte 整数 值 ， 以 字 节 为 单位 表示 PDU 长 度 ， 不 包括 版 本 号 和 PDU 
长 度 字 段 。PDU 最 大 长 度 在 会 话 初 始 化 时 协商 确定 ， 默 认 最 大 长 度 为 4096Byte。 

LDP Identifier: 6Byte， 唯 一 标识 PDU 所 属 发 送 LSR 的 标签 空间 。 前 4Byte 表示 
LSR-ID 地 址 ， 后 2Byte 指定 LSR 中 的 特定 标签 空间 。 

LDP 报 文 格式 如 图 8-13 所 示 。 

对 其 中 的 字段 解释 如 下 。 

U: 1lbit， 未 知 TLV bit，U=0 返回 通知 ，U=1 忽略 该 报 文 。 

Message Type: 14bit， 表 示 报 文 所 属 的 类 型 。 
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? Message Type Message Length 


Message ID 


Mandatory Parameters 





Optional Parameters 





图 8-13 ”LDP 报 文 格式 


Message Length: 2Byte， 以 字 节 为 单位 表示 报 文 长 度 ， 包 括 报 文 标识 符 、 必 选 参 
数 、 可 选 参数 等 几 部 分 。 

Message ID: 报 文 标识 符 ，4Byte， 用 于 标识 报 文 。 

Mandatory Parameters: 必 选 参数 可 变 长 度 ， 必 选 参数 集 。 

Option Parameters: 可 选 参数 可 变 长 度 ， 可 选 参数 集 。 

下 面具 体 分 析 一 下 LDP 各 报 文 的 内 容 及 作用 。 

Hello 报 文 

LDP 的 Hello 报 文 用 于 发 现 邻 居 并 用 作 后 期 邻居 关系 的 维护 , 基于 UDP 来 发 送 , 发 
送 的 目标 地 址 是 224.0.0.2， 在 启用 了 LDP 的 接口 上 会 周期 性 地 发 送 ( 默 认 周 期 =5s)。 
Hello 包 格 式 如 图 8-14 所 示 。 a Label Distribution protocol 


Version: 1 
Hello 包 携 带 了 一 些 通 用 参数 ， 比 如 保持 时 间 Fe 


等 ， 还 有 发 送 方 的 传输 地 址 。 保 持 时 间 是 删除 一 个 。 和 pe 人 
邻居 前 的 等 待 时 间 ， 默 认 是 15s (Hello*3)， 如 果 双 Me ee 


Message Length: 20 


方 设置 的 保持 时 间 不 一 样 , 则 使 用 较 短 的 那个 时 间 。 be 
传输 地 址 是 用 来 建立 TCP 连接 的 地 址 ， 默 认 是 跟 。 “Po 0 nV 
LSR-ID 一 样 的 ， 所 以 默认 情况 下 ， 两 台 LSR 要 能 图 8-14 Hello 报 文 格式 
成 功 建立 LDP 邻居 会 话 关系 ， 各 自 的 LSR-ID 一 定 要 路 由 可 达 。 传 输 地 址 可 以 修改 成 其 
他 地 址 ， 修 改 方法 如 下 : 

[LSR1-GigabitEthernetO/0/0]mpls ldp transport-address interface 

但 是 , 在 修改 传输 地 址 时 会 导致 LDP 邻居 关系 中 断 ， 会 影响 上 层 的 业务 ， 所 以 要 说 
慎 配 置 。 下 于 位 让 证 而 交 让 二 生生 和 全 全 仆人 如 下 输出 所 示 。 

[LSR1]display mpls ldp interface verbose 

LDP Interface Information in Public Network 


ee gp ED dO 2 DD cg 


Interface Name : GigabitEthermet0/0/0 . 
LDPID :10,1.1.1°0 TransportAddress : 10.1.1.1 


Entity Status 。 :Active Effective MTU :1500 
Configured Hello Hold Timer = :15 Sec 
Negotiated Hello Hold Timer :15 Sec 
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Initialization 报 文 
Initialization 报 文 用 来 协商 LDP 邻居 会 话 参数 ， 包 括 标签 的 分 发 方式 、 防 环 机 制 和 
标签 空间 ， 如 图 8-15 所 示 。 


s Label pistriburion prorocol 
Version: 1 
POU Length: 32 
LSR TID; 10,2.2.2 (10.2,2.2) 
Label Space ID; 0 
SINnirtializartion Message 
人 -.。 =U bir: Unknown bit nor ser 
Message Type: Imitialization Message (0x200) 
Massage Length; 22 
Massage ID: Ox00000649 
SB Common Session Paramerers TLV 
00.. -. = TLY Unknaown birs: Known TLV, do nor Forward (Ox00) 
TLV Type: Comon Session Parameters TLV [0x500) 
TY Length; 14 
Parameters 标签 分 发 方式 为 DU 
Session Prorocol version: 1 
Session KeepAlive Time: 45 
0... ..-. = Session Label Advertisement Discipline: Downstream Unsolicited proposed 
.0.。,,,，= Session Loop Detection; Loop Detection Disabled 
Session Pach vector Limir: 0 
Session Max PDU Lengch: 4096 » 
Session Receiver LSR Identifier: 10.1.1.1 (10.1.1,.1) 环 路 检测 关闭 
Session Receiver Label e Idencifier: 0 
和 一 标签 空间 为 基于 平台 


图 8-15 Initialization 报 文 格式 


Address 报 文 
Address 报 文 用 来 向 LDP 邻居 通告 本 端的 所 有 接口 IP 地 址 ， 以 便 邻 居 可 以 通过 IP 
转发 表 的 下 一 跳 地 址 来 决定 出 站 标签 ， 如 图 8-16 所 示 。 


S Label Discributjion Protocol 
Version: 工 
PDU Length: 32 
LSR ID: 10.2.2.2 (10.2.2.2) 
Label space ID: 0 
日 Address Message 
0... .... =1Ubit: Unknown bit not set 
Message Type: Address Message (0x300) 
Message Length: 22 
Message ID: Ox0000001f 
习 Address List TLV 
00.. .... = TLV Unknown bits: Known TLV，do not Forward (Ox00) 
TLV Type: Address List TLV (Ox101) 
TLY Length: 14 
Address Family: IPv4 (1) 
加 Addresses 
| Address 1: 10.1.23.2 
i Address 2: 10.2.2.2 
Laddress 3: 10.1.12.2 


图 8-16 Address 报 文 格式 


如 果 一 台 LDP 路 由 器 从 不 同 邻居 接收 到 相同 FEC 的 标签 映射 , 那么 需要 为 该 FEC 选 
择 一 个 最 佳 的 out 标签 ， 这 时 就 需要 综合 查看 卫 转发 表 和 标签 表 的 信息 来 决定 out 标签 。 

标签 通告 报 文 

标签 通告 报 文 用 来 向 LDP 邻居 发 布 FEC 和 标签 的 绑 定 内 容 ， 一 个 标签 通告 可 以 发 
布 多 个 标签 信息 ， 如 图 8-17 所 示 。 


EE TT 滞 
Version: 1 
PDU Length: 74 
LSR TD 10.2.2.2. (10.2.2.2) 
Label Space ID: 0 
田 Label Mapping Message < 一 一 每 一 条 FEC 及 其 映射 的 标签 
田 Label Mapping Message 






图 8-17 标签 通告 报 文 格式 
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标签 通告 报 文 还 包括 了 标签 请 求 、 标 签 撤销 和 标签 释放 报 文 ， 这 里 就 不 一 一 著述 。 

Keepalive 报 文 

LDP 邻居 会 话 建立 后 ， 双 方 会 定期 地 交互 KeepAlive 报 文 ， 用 来 对 TCP 会 话 的 保 活 
检测 ， 默 认 检测 周期 为 15s， 超 时 时 间 为 45s。KeepAlive 报 文 没 有 具体 内 容 ， 格 式 非 常 
简单 ， 如 图 8-18 所 示 。 


[S a se beet ot protocol 


Boy 全 

LSR ID; 18.2.2.2 (to.2.2 

Label Space TID: 

B Keep Alive a 

0... .... = Ubit: unknown bit not 5 
Message Type: ap Alive Message Oo) 
Message Length: 
Message ID: ts 


8-18 ”KeepAlive 报 文 格式 


Notification 报 文 

通知 报 文 分 为 错误 通知 或 查询 通知 。 在 发 生 以 下 事件 时 会 发 出 通知 报 文 : 收 到 的 数 
据 包 格式 错误 、 无 法 识别 的 TLV、 会 话 超时 等 ， 报 文中 会 向 邻居 报告 具体 的 差错 类 型 ， 
如 图 8-19 所 示 。 


日 A A Protocol 


WD a 28 
LSR ID: 10.3.3.3 (10.3.3.3) 
Label space ID; 0 
B Notification Message 
0...。...， =Ubir: Unknown bit nof set 
Message Type: ee Message (Ox1) 
Message Length: 
Message ID: Dec 
已 StatUs TLV 
00.。 .re = TLV Unknown bits: Known TLV，do not Forward (Ox00) 
TLV Type: StEatus TLV (0x300) 
Tv Length: 10 
EB Status 
bP 





.+ = EBit: Fatal Error Notification 

泛 ， ... .=FBit: Notification should NOT be Forwarded 
Status Data: Shutdown (OxA) 

Message ID: 0x00000000 

Message Type: Unknown (0x0000) 


图 8-19 Notification 报 文 格式 





8.2.3 ”LDP 标签 的 发 布 和 管理 


LDP 会 话 建 立 后 ，LDP 协议 开始 交换 标签 映射 等 报 文 ， 用 于 建立 LSP。RFC3036 
分 别 定 义 了 标签 发 布 方式 、 标 签 分 配 的 控制 方式 、 标 签 保 持 方式 来 决定 LSR 如 何 发 布 和 
管理 标签 。 

标签 发 布 方式 

标签 发 布 方式 是 指 下 游 LSR 发 布 标签 映射 通告 时 , 采取 主动 出 击 或 在 收 到 上 游 LSR 
请 求 后 被 动 回应 ， 也 就 是 分 为 DU (Downstream Unsolicited) 和 DoD (Downstream On 
Demand) 两 种 方式 。 

1. DU: 下 游 自 主 

在 DU 模式 下 ， 当 下 游 LSR 和 上 游 LSR 建立 完 LDP 会 话 后 ， 下 游 主动 向 上 游 发 布 
标签 映射 通告 报 文 ， 华 为 VRP 系统 中 默认 就 采用 该 模式 。 但 是 ， 华 为 默认 情况 下 只 对 路 
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由 表 中 的 32 位 掩 码 路 由 进行 标签 映射 并 通告 , 如 果 想 要 修改 触发 标签 的 策略 , 可 以 使 用 
Lsp-Trigger 命令 修改 。 如 图 8-20 所 示 ， 按 DU 模式 分 发 标签 的 例子 。 


到 171.68.1.0/24 到 171.68.1.0/24 
可 以 使 用 标签 18 可 以 使 用 标签 20 











路 由 触发 


上 游 下 游 
171.68.4.0/24 e171 68.1.0/24 


LSRI1 LSR2 LSR3 
图 8-20 ”DU 模式 分 发 标签 


如 图 8-20 所 示 ， 以 171.68.1.0/24 为 例 ，LSR3 路 由 器 主动 向 其 上 游 邻居 LSR2 通告 
标签 映射 信息 ， 同 时 ，LSR2 也 会 主动 向 LSR1 通告 自己 的 标签 映射 。 

一 般 情 况 下 ，LSR 会 向 其 上 游 和 下 游 LDP 邻居 都 通告 标签 ， 从 而 提高 LDP LSP 的 
收敛 速度 。 但 是 向 所 有 对 等 体 发 送 标签 映 射 报 文 会 导致 大 量 LSP 的 建立 ， 占 用 较 多 的 资 
源 。 因 此 ， 为 了 减少 LSP 的 数量 ， 从 而 节省 内 存 ， 推 荐 使 用 outbound peer { peer-id | all } 
split-horizon 命令 为 LDP 邻居 配置 水 平分 割 策略 , 即 控制 LSR 只 向 其 上 游 LDP 邻居 分 配 
标签 。 参 数 peer-id 用 来 配置 不 给 指定 LSR ID 的 下 游 LDP 邻居 分 配 标签 。 如 果 配 置 参数 
all 的 同时 又 配置 peer-id， 则 单个 peer 的 LDP 水 平分 割 策略 不 生效 。 默 认 情 况 下 ， 华 为 
设备 上 没有 启用 该 配置 。 

2. DoD: 下 游 按 需 

下 游 LSR 如 果 工 作 在 DoD 模式 下 时 ， 在 收 到 上 游 LSR 的 标签 请 求 报 文 后 ， 会 针对 
上 游 LSR 所 请 求 的 FEC 发 送 对 应 的 标签 映射 信息 给 上 游 LSR, 如 图 8-21 所 示 , 所 有 LSR 
都 工作 在 DoD 模式 下 ，LSR1 向 LSR2 发 送 标签 请 求 ，LSR2 也 向 LSR3 发 送 标签 请 求 ， 
LSR3 会 将 FEC:171.68.1.0/24 及 映射 的 标签 回应 给 LSR2，LSR2 也 会 向 LSR1 回应 自己 
分 配 的 标签 信息 。 








路 由 触发 














me 


分 配 到 171.68.1.0/24 分 配 到 171.68.1.0/24 
的 标签 为 18 的 标签 为 20 
[< 
LSR1 “| 请 求 到 目的 地 址 | LSR2 | 请 求 到 目的 地 址 LS 
171.68.1.0/24 的 标签 171.68.1.0/24 的 标签 


图 8-21 DoD 模式 分 发 标签 


171.68.4.0/24 (eat 8 有 171 68.1.0/24 
上 游 下 游 


总 络 : 

这 两 种 方式 (DU 和 DoD) 都 有 各 自 的 优 缺 点 和 相应 的 应 用 场景 。 

@ DU: 

由 于 上 游 不 需要 发 送 标签 请 求 , 所 以 机 制 有 所 简化 , 但 是 , 上 游 因 此 会 收 到 所 有 LDP 
邻居 主动 发 送 的 映射 消息 ,并 且 也 必须 保留 下 来 , 所 以 会 有 更 多 的 LDP 报 文 交互 数量 和 
占用 更 多 的 存储 空间 。 而 且 ， 下 游 主 动 发 送 标签 ， 因 此 会 建立 大 量 的 LSP， 这 些 LSP 中 
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有 可 能 是 不 需要 的 。 
® DoD: 
这 种 方式 由 于 需要 进行 标签 请 求 ， 所 以 会 带 来 额外 的 资源 开销 ,但 LSP 的 建立 是 在 
需求 驱动 下 建立 的 ， 所 以 比较 有 效率 。 
下 面 的 输出 信息 显示 华为 默认 采用 的 是 DU 的 分 发 方式 ， 如 下 输出 所 示 。 
[LSR1]display mpls ldp session 
PeerID Status LAM SsnRole SsnAgpe KASOHOREY 一 
10.1.2.220 Operational DU ”Passive 0000:01:39 397/397 -一 
TOTAL: 1 session(s) Found. 
可 以 通过 下 面 的 方法 修改 默认 的 标签 发 布 方 式 ， 如 下 所 示 。 
[LSR1-GigabitEthernetO/0/0]mpls ldp advertisement dod 
说 明 : 
在 修改 为 DoD 方式 后 ， 会 重 置 接口 上 的 LDP 邻居 会 话 。 
标签 分 配 的 控制 方式 
标签 分 配 的 控制 是 指 下 游 给 上 游 发 布 标 签 时 〔 不 管 是 主动 还 是 被 动 ) 的 条 件 ， 也 就 
是 下 游 LSR 在 向 上 游 LSR 发 布 标签 时 是 否 被 要 求 一 定 要 收 到 自己 下 游 LSR 的 标签 。 标 
得 控制 方式 分 为 两 种 ， 独立 控 制 方式 和 有 序 控制 方式 。 
1.， 独立 控制 方式 
， 在 独立 控制 方式 下 , LSR 在 没有 收 到 自己 下 游 LSR 的 情况 下 就 能 向 上 游 通告 标签 映 
射 信 息 ， 也 就 是 说 发 布 标签 时 不 受 下 游 LSR 的 制约 。 这 里 分 为 两 种 情况 : 下 游 LSR 的 
标签 分 发 方式 如 果 为 DU， 下 游 直接 将 标签 映射 通告 给 上 游 ; 下 游 LSR 的 标签 分 发 方式 
如 果 是 DoD， 那 么 在 收 到 上 游 LSR 的 标签 请 求 后 直接 向 其 上 游 LSR 回应 标签 信息 ， 不 
管 它 自己 有 没有 收 到 下 游 LSR 的 标签 。 所 以 在 独立 控制 模式 下 ,LSR 的 标签 通告 行为 比 
较 自主 ， 如 图 8-22 所 示 。 


FEC: 172.16.1.0/24 独立 模式 : 
In Label: 1024 FEC: 172.16.1.0/24 、 
Out Label: 1026 In Label: 1026 只 发 路 由 通告 172.16.1.0/24 





172.16.1.0/24 


图 8-22 ”独立 的 标签 控制 方式 


如 图 8-22 所 示 , LSR2 工作 在 独立 控制 模式 下 , 相对 于 目标 网 段 172.16.1.0/24 来 说 ， 
LSR1 是 其 上 游 邻 居 ，LSR3 是 其 下 游 邻 居 ，LSR2 将 FEC: 172.16.1.0/24 及 其 映射 的 标 
签 信息 直接 通告 给 上 游 邻 居 LSR1， 而 此 时 其 下 游子 邻居 LSR3 并 没有 通告 任何 标签 信 
息 。 如 果 有 去 往 172.16.1.0 的 报 文 进入 LSR1，LSR1 压 入 LSR2 通告 过 来 的 标签 后 转发 
到 LSR2， 而 LSR2 因为 没有 接收 到 下 游 LSR3 的 标签 ， 所 以 只 能 以 全 转发 的 方式 送 至 
LSR3， 也 就 是 说 去 往 172.16.1.0 的 LSP 在 LSR2 处 就 断 掉 了 。 
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2. 有 序 控制 方式 
有 序 控制 方式 下 ，LSR 在 向 上 游 通告 标签 映射 信息 之 前 ， 必 须 已 经 收 到 了 来 自 下 游 
LSR 的 标签 , 华为 VRP 系统 默认 采用 该 方式 。 如 图 8-23 所 示 ， 以 右 侧 网 络 172.16.1.0/24 
为 例 ，LSR3 由 于 没有 通告 该 网 络 的 标签 映射 信息 给 到 LSR2， 如 果 LSR2 使 用 有 序 的 标 
签 控 制 模式 ， 因 此 它 也 无 法 向 其 上 游 邻居 LSR1 通告 有 关 FEC: 172.16.1.0/24 的 标签 ， 


因为 其 下 游 邻居 LSR3 没有 通告 此 FEC 的 标签 过 来 ， 这 时 报 文 只 能 以 IP 转发 的 方式 被 
送 到 网 络 172.16.1.0/24。 


有 序 模式 : 因为 没有 收 到 
Label 通告 , 所 以 不 向 上 游 发 
Label 通告 ， 只 发 路 由 通告 只 发 路 由 通告 172.16.1.0/24 








172.16.1.0/24 








目的 耳 为 172.16.1.0/24 目的 耳 为 172.16.1.0/24 IP 转发 
的 报 文 执 行 IP 转发 的 报 文 执行 IP 转发 


图 8-23 有 序 的 标签 控制 方式 
总 缩 : 
独立 控制 模式 下 ， 虽 然 标签 通告 来 得 自由 点 ， 但 是 无 法 保证 到 目标 网 络 的 LSP 是 连续 


的 , 也 就 是 容易 发 生 LSP 断裂 的 情况 ; 而 有 序 控制 方式 下 , 虽然 标签 通告 受到 一 定 的 限制 ， 
建立 LSP 的 效率 会 受 其 影响 ， 但 是 它 确保 了 整 条 LSP 是 连续 的 。 


下 面 的 输出 信息 显示 华为 设备 默认 采用 的 标签 发 布控 制 方式 。 


[LSR2]display mpls ldp : 
LDP Instance Information 
Instance ID :0 VPN-Instance 4 
Instance Status :Active LSR ID 人 
Loop Detection :Of Path Vector Limit :32 
Label Distribution Mode : Ordered Label Retention Mode : Liberal 
Instance Deleting State : No Instance Reseting State : No 
Graceful-Delete Of Graceful-Delete Timer : 5 Sec 
标签 的 保持 方式 


当 一 台 LSR 收 到 来 自 多 个 LDP 邻居 的 标签 映射 通告 时 ， 将 这 些 标签 信息 保存 到 数 
据 库 中 的 方式 有 两 种 : 保守 保存 〈Conservative Retention Mode) 和 自由 保存 (Liberal 
Retention Mode ) 。 


1. 保守 方式 

LSR 的 标签 保留 如 果 采 用 保守 方式 ， 对 于 特定 的 一 条 FEC， 即 使 从 多 个 LDP 邻居 
都 收 到 了 标签 映射 ， 该 LSR 只 会 将 最 优 的 标签 保留 下 来 ， 其 他 的 标签 视 为 无 用 标签 ， 判 
断 是 否 为 最 优 标签 的 方法 是 根据 IP 转发 表 的 下 一 跳 地 址 , 也 就 是 说 , 拥有 这 个 下 一 跳 地 
址 的 LDP 邻居 通告 的 标签 为 最 终 保留 的 标签 。 

如 图 8-24 所 示 ， 对 于 目标 网 络 前 缀 10.1.0.0/24 来 说 ，LSR3 的 两 个 下 游 邻 居 (LSR1 
和 LSR2) 都 向 其 通告 了 标签 映射 信息 ， 这 时 LSR 采用 的 标签 保存 方式 为 保守 方式 ， 那 
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么 它 只 会 将 LSR1 的 标签 保存 到 数据 库 中 ， 因 为 在 LSR3 的 IP 转发 表 中 去 往 目 标 网 络 
10.1.0.0 的 下 一 跳 是 LSR1， 也 就 是 路 由 器 只 将 最 好 路 径 的 标签 予以 保留 ， 所 以 在 LSR3 
的 标签 转发 表 中 ， 最 终 为 FEC: 10.1.0.0/24 选择 的 出 标签 为 1028。 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


| LERI LSR1 Label 1028 LSR3 LER2 | 
RR 


10.1.0.0/24 





图 8-24 ”保守 标签 保持 方式 


2. 自由 方式 

如 果 使 用 自由 方式 的 标签 保留 方式 ，LSR 会 保存 下 所 有 的 标签 ， 即 使 收 到 的 标签 中 
有 些 暂 时 没有 用 (本 地 没有 对 应 的 路 由 或 不 是 卫 转发 表 中 下 一 跳 邻居 通告 的 ), 如 图 8-24 
所 示 ，LSR3 会 将 1028 和 1029 两 个 标签 都 保留 下 来 。 这 样 做 的 好 处 是 ， 当 网 络 发 生 故 
障 时 ， 可 以 立刻 使 用 新 的 标签 计算 出 新 的 LSP， 收 敛 比 较 快 ， 但 这 种 方式 因为 保留 下 了 
所 有 标签 ， 所 以 对 数据 库 的 空间 要 求 较 高 。 

下 面 的 输出 信息 显示 华为 设备 默认 采用 的 标签 保留 方式 ， 如 下 输出 所 示 。 


[LSR1]display mpls ldp 
LDP Instance Information 
Instance ID :0 , VPN-Instance 
Instance Status :Active LSR ID “OTL1 
Loop Detection :Of Path Vector Limit & :32 
Label Distribution Mode : Ordered Label Retention Mode : Liberal 
Instance Deleting State : 人 Instance Reseting State : No 
Graceful-Delete Graceful-Delete Timer ; 5 Sec 
可 以 通过 下 面 的 方法 修改 标签 的 默认 保留 方式 ， 如 下 输出 所 示 。 
[LSR1]mpls ldp 
[LSR1-mpls-ldp]label-retention Conservative 
总 缩 : 


如 果 使 用 保守 方式 来 保留 标签 ， 可 以 节省 标签 存储 空间 ， 但 是 当 网 络 拓扑 变化 时 (如 
图 8-24 所 示 ，LSR1 到 LSR3 之 间 的 链 路 故障 )， 因 为 没有 备用 的 标签 ， 所 以 还 得 临时 计算 
出 新 的 可 用 标签 ， 收 敛 比较 慢 ， 使 用 自由 保存 方式 ， 可 以 加 快 收敛 速度 ， 但 是 需要 更 多 
的 存储 空间 。 
业界 对 于 标签 的 发 布 和 管理 , 常 使 用 以 下 4 种 组 合 方式 中 的 一 种 。 通过 上 述 的 描述 ， 
读者 应 该 清楚 了 华为 设备 的 默认 使 用 的 组 合 是 第 2 种 。 
。 DU+ 独 立 控制 + 自由 保留 。 
。 DU+ 有 序 控制 + 自由 保留 。 
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。 DoD+ 有 序 控制 + 保守 保留 。 
e。 DoD+ 独 立 控制 + 保守 保留 。 


8.2.4 ”LDP 会 话 的 建立 过 程 


LDP 会 话 是 建立 在 TCP 之 上 的 ， 所 以 建立 TCP 连接 之 前 必须 知道 邻居 的 人 P 地 址 ， 
根据 获知 邻居 卫 地 址 的 方式 将 LDP 会 话 分 成 两 类 。 

。 ”本 地 LDP 会 话 (Local LDP Session): 建立 会 话 的 两 个 LSR 之 间 是 直 连 的 。 

。 ”和 远 端 LDP 会 话 (Remote LDP Session): 建立 会 话 的 两 个 LSR 之 间 可 以 是 直 连 

的 ， 也 可 以 是 非 直 连 的 。 

会 话 建立 过 程 

1. 邻居 发 现 

在 启动 LDP 协议 后 ， 路 由 器 发 出 Hello 报 文 ， 相 邻 路 由 器 之 间 会 通过 交换 Hello 报 
文 来 完成 相互 “问候 风 通过 Hello 报 文 可 以 获知 邻居 的 基本 信息 ， 比 如 用 来 建立 会 话 的 
地 址 〈 传 输 地 址 ) 等 。 然 后 ， 由 地 址 大 的 一 方 发 起 TCP 连接 并 最 终 建 立 邻居 会 话 ， 这 种 
方式 的 LDP 会 话 就 叫 本 地 会 话 。 如 果 以 手工 的 方式 指定 邻居 地 址 , 然后 建立 的 会 话 称 为 
远 端的 LDP 会 话 。 

如 图 8-25 所 示 ， 两 直 连 邻居 之 间 相 互 发 现 的 过 程 。 


Ee 


LL1132 解 党 ee 
Hello Message 
1.1.1.1:any port 224.0.0.2:646 
Hello Message 
2.2.2.2:any port 224.0.0.2:646 
Establish TCP Connection 
2.2.2.2:any port 1.1.1.1:646 


图 8-25 直 连 邻居 相互 发 现 


2.2.2.2/32 





如 果 邻 居 是 非 直 连 的 设备 ，Hello 会 以 单 播 的 方式 来 交换 ， 用 于 完成 远 端 LDP 会 话 
的 建立 ， 如 图 8-26 所 示 。 


LSRI LSR2 LSR3 
111132 篇 =% 


wy 
< 





3.3.3.3/32 


民 
Hello Message 
1.1.1.1:any port 3.3.3.3:646 
Hello Message 
3.3.3.3:any port 1.1.1.1:646 
Establish TCP Connection 
3.3.3.3:any port 1.1.1.1:646 


图 8-26 远 端 邻居 相互 发 现 
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2. 会 话 建立 
LDP 邻居 之 间 相 互 发 现 或 直接 指定 了 邻居 地 址 后 , 开始 建立 TCP 连接 , 建立 完 TCP 
连接 后 ， 相 互 发 送 初始 化 报 文 进 行 参数 协商 ， 如 图 8-27 所 示 。 
LSRI LSR2 
la.1/32 2.2.2.2/32 


Establish TCP Connection 





2.2.2.2:any port 1.1.1.1:646 









Initialization Message 
2.2.2.2:any port 1.1.1.1:646 









Initialization Message 
1.1.1.1:any port 2.2.2.2:646 


KeepAlive Message 
1.1.1.1:any port 2.2.2.2:646 
KeepAlive Message 
2.2.2.2:any port 1.1.1.1:646 


LDP Session Established 
图 8-27 LDP 会 话 的 建立 过 程 


如 果 接 受 对 方 的 参数 ， 则 会 回复 KeepAlive 报 文 ， 完 成 LDP 会 话 的 建立 ; 如 果 期 间 
发 生 错误 ， 则 会 发 送 Notification 报 文 来 报告 相应 的 错误 ， 最 终 导致 连接 被 关闭 。 可 以 通 
过 以 下 命令 检查 LDP 会 话 的 建立 情况 。 


[LSR1]display mpls ldp session 一 
LDP Session(s)in Public Network 
re EA EO ea 
Peer-ID tatus LAM SsnRole SnAge KA-Sent/Rev 
2.2. 2.2; 0 OperationalDU NE 000:00:10 79/79 


状态 为 Operational 表示 LDP 会 话 已 经 建立 成 功 ， 邻 居 之 间 可 以 交换 标签 通告 等 报 
文 了 。 在 会 话 建立 后 ， 双 方 会 定期 发 送 Hello 报 文 以 检测 邻居 状态 ， 也 会 定期 发 送 
KeepAlive 报 文 来 检测 TCP 连接 状态 。 


LDP 会 话 状 态 机 
LDP 协议 从 邻居 发 现 到 会 话 建立 过 程 历经 了 4 个 状态 ， 状 态 之 间 的 切换 如 图 8-28 
所 示 。 


(1) Non Existent 状态 : LDP 协议 的 初始 状态 ， 类 似 BGP 的 IDLE 状态 。 开 始 时 双 
方 用 组 播 地 址 224.0.0.2 发 送 Hello 报 文 ， 并 且 选 举 主动 方 和 被 动 方 (LSR IP 地 址 高 的 被 
选 为 主动 方 )。 双 方 收 到 对 方 的 Hello 报 文 后 ， 则 开始 建立 TCP 连接 ， 接 着 是 建立 TCP 
连接 三 次 握手 的 过 程 ， 当 TCP 会 话 建立 成 功 后 ， 双 方 进入 到 Initialized 状态 。 

(2) Initialized 状态 : 该 状态 下 主动 方 和 被 动 方 的 工作 有 点 不 同 。 主 动 方 先 发 送 
Initialization 报 文 ， 随 后 便 转 入 Opensent 状态 ， 并 等 待 被 动 方 回 应 Initialization 报 文 。 被 
动 方 在 这 个 状态 下 会 等 待 主动 方 发 送 Initialization 报 文 过 来 , 如 果 收 到 的 Initialization 报 
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文中 的 参数 都 能 接受 ， 会 给 主动 方 回应 Initialization 和 KeepAlive 报 文 ， 随 后 便 转 入 
Openrec 状态 。 主 动 方 和 被 动 方 在 该 状态 下 收 到 非 Initialization 报 文 或 等 待 超 时 都 会 跳 转 
至 Non Existent 状态 。 


Non 
Existent 





收 到 的 消息 Sessi 立 收 到 init 以 外 
不 是 KeepAlive a 的 消息 或 超时 
或 超时 
被 动 方 收 到 init 消息 > 
发 送 init 和 KeepAlive RR 
收 到 init 外 的 
消息 或 超时 
Opensent 
收 到 init 消息 
收 到 发 送 KeepAlive 消息 
KeepAlive 
re 
3 hme 收 到 shutdown 或 超时 
其 他 LDP 消息 发 送 shutdown 


图 8-28 ”LDP 会 话 状态 机 


(3) Opensent 状态 : 这 个 状态 是 主动 方 发 出 initialization 报 文 后 的 状态 ， 该 状态 下 
还 会 等 待 邻居 的 initialization 和 KeepAlive 报 文 。 如 果 收 到 的 initialization 报 文中 的 参数 
都 能 接受 ， 则 会 向 邻居 回应 KeepAlive 报 文 ， 并 且 状 态 跳 变 至 Openrec 状态 ， 如 果 参 数 
不 能 接受 或 等 待 时 间 超 时 ， 则 会 断 开 TCP 会 话 连接 而 进入 到 Non Existent 状态 。 

(4) Openrec 状态 : 不 管 是 主动 方 还 是 被 动 方 ， 在 收 到 参数 正确 的 initialization 报 文 
后 都 会 转 入 此 状态 ， 并 且 在 该 状态 下 已 经 向 对 方 回 应 了 KeepAlive 报 文 并 等 待 着 邻居 回 
应 KeepAlive 报 文 。 如 果 从 邻居 那 边 按时 接收 到 了 KeepAlive 报 文 ， 则 转 入 Operational 
状态 ; 如 果 收 到 其 他 报 文 或 等 待 时 间 超 时 ， 则 转 入 Non Existent 状态 。 

(5) Operational 状态 : 到 达 此 状态 就 意味 着 LDP 会 话 已 经 建立 成 功 ， 可 以 发 送 和 交 
换 所 有 其 他 的 LDP 报 文 了 。 在 该 状态 下 双方 通过 周期 性 KeepAlive 报 文 交换 来 维护 邻居 
会 话 ， 如 果 KeepAlive 超时 ， 则 立刻 断 开 LDP 会 话 并 进入 Non Existent 状态 ; 当 收 到 错 





误 通 知 报 文 时 , 也 会 断 开 LDP 会 话 并 转 入 Non Existent ee 

状态 。 LSR-A ™ LSR-B 
如 图 8-29 所 示 , LSR-A 和 LSR-B 基本 配置 都 已 经 下 . 了 

完成 。 这 时 在 建立 LDP 会 话 时 , 在 LSR-B 上 打开 LDP 

会 话 过 程 的 调 i ， 可 以 看 到 在 建立 会 话 过 程 中 所 2.2.2.2/30 

Ce i 图 8-29 查看 LDP 会 话 建立 的 状态 
<LSR-B>terminal monitor 
<LSR-B>terminal debugging 


<LSR-B>debug mpls ldp session 
*0.12902062 LSR-B LDP/8/Session: Vlanifl 
Link Hello message received on interface: Vlanifl 
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*0.12902062 LSR-B LDP/8/Session: 

Created session with LSR: 1.1.1.1 
*0.12902062 LSR-B LDP/8/Session: Vlanifl 

Link Hello message sent on interface: Vlanifl 
*0.12902062 LSR-B LDP/8/Session: Vlanifl 
Session(1.1.1.1,Active role) start to open TCP connection. 
*0.12902062 LSR-B LDP/8/Session: Vlanifl 
Session(1.1.1.1)'s state changed from Non-existent to Initialized. 


由 上 面 的 输出 信息 可 知 ， 当 LSR-B 收 到 Hello 后 ， 知 道 本 地 的 LSR IP 地 址 更 高 ， 
所 以 充当 了 主动 方向 对 方 发 起 TCP 连接 请 求 ， 状 态 由 Non-existenet 转 入 到 Initialized。 

在 Initialized 状态 下 , LSR-B 向 LSR-A 发 出 了 一 个 Init 报 文 , 状态 转换 到 Open Sent 
状态 ， 如 下 输出 所 示 。 


*0.12906969 LSR-B LDP/8/Session: Vlanifl 

Link Hello message received on interface: Vlanif]l 
%Jul 24 12:07:11 2006 LSR-B LDP/5/LOG: 

Received TCP Up Event for TCP SockId 2 
*0.12931844 LSR-B LDP/8/Session: 

TCP up event received for socket Id: 2 

*0.12931844 LSR-B LDP/8/Session: Vlanifl 
Session(1.1.1.1) start to send init msg on Initialized state. 
*0.12931844 LSR-B LDP/8/Session: 

Session Init message sent to LSR: 1.1.1.1 
*0.12931844 LSR-B LDP/8/Session: Vlanifl 
Session(1.1.1.1)'s state changed from Initialized to Open Sent. 


在 Open Sent 状态 下 ，LSR-B 会 等 待 来 自 LSR-A 的 KeepAlive 报 文 ， 如 果 收 到 了 


KeepAlive 报 文 ， 则 状态 切换 到 operational， 完 成 LDP 会 话 的 建立 ， 如 下 输出 所 示 。 

#Jul 24 12:07:11 2016 LSR-B LDP/$/SessionUp: Session(1.1.1.1:0. public Instance)'s 
state change to Up | 

*0.12931969 LSR-B LDP/8/Session: Vlanifl 

Session(1.1.1.1) received init msg in Open Sent state. 

*0.12931969 LSR-B LDP/8/Session: Vlanifl 
Sent keep alive message to LSR: 1.1.1.1. 

*0.12931969 LSR-B LDP/8/Session: Vlanifl 

Session(1.1.1.1)'s state changed from Open sent to Open received. 

*0.12931969 LSR-B LDP/8/Session: Vlanifl 

Session(1.1.1.1) received keep alive message on Open Received state. 

*0.12931969 LSR-B LDP/8/Session: Vlanifl 

Session(1.1.1.1)'s state changed from Open received to operational. 


8.2.5 ”LDP 的 环 路 检测 


在 三 层 网 络 中 使 用 的 每 种 动态 路 由 技术 都 有 各 自 的 防 环 机 制 , LDP 协议 也 有 防 环 机 制 ， 
但 华为 VRP 系统 默认 不 开启 LDP 防 环 功能 ， 这 是 因为 三 层 路 由 技术 已 经 避免 了 路 由 环 路 ， 
而 LDP 协议 又 是 基于 路 由 来 分 配 标签 和 建立 LSP 的 , 所 以 这 时 报 文通 过 LSP 进行 转发 是 不 
会 出 现 环 路 的 。 除 非 因为 路 由 协议 收敛 出 现 问题 ， 出 现 了 短暂 环 路 。 标 签 中 也 有 TTL 字段 ， 
这 样 也 避免 了 数据 包 在 MPLS 网 络 中 无 限 循环 。LDP 协议 本 身 的 防 环 方式 有 以 下 几 种 。 

1. 规定 最 大 跳 数 

如 同 RIP 协议 规定 路 由 的 最 大 跳 数 为 16 跳 一 样 ，LDP 协议 也 可 以 限制 标签 报 文 经 
过 的 LSR 数量 ， 这 个 特性 通过 在 报 文中 使 用 一 个 叫 作 Hop Count 的 TLV 来 实现 。LDP 
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报 文 〈 比 如 标签 请 求 报 文 ) 每 经 过 一 个 LSR， 该 LSR 都 在 跳 数 TLV 中 增加 一 跳 ， 当 跳 
数 达 到 最 大 值 后 ， 环 路 就 被 检测 到 了 ， 这 时 就 终止 LSP 的 建立 。 华 为 VRP 系统 默认 定 
义 的 最 大 跳 数 为 32 跳 。 

2.TTL 处 理 

MPLS 报 文中 每 经 过 一 台 LSR， 标 签 中 的 TTL 减 1， 当 TTL 减少 到 0 的 时 候 ， 报 文 
最 终 被 丢弃 ， 通 过 这 种 方法 达到 防止 数据 包 的 无 限 循环 问题 。 

3 路 径 失 量 法 

路 径 矢 量 法 是 指 在 LDP 报 文 传递 过 程 中 ,记录 沿途 经 过 的 所 有 LSR， 就 像 BGP 协议 
的 AS-PATH 属性 一 样 ， 当 一 台 LSR 收 到 LDP 报 文 后 ， 就 会 将 自己 的 LSR-ID 添加 到 报 文 
中 ; 如 果 收 到 的 LDP 报 文 已 经 有 了 本 地 的 LSR-ID， 则 认为 出 现 了 环 路 ， 终 止 建立 LSP。 


8.2.6 LDP 和 IGP 的 同步 


LDP 和 1GP 同步 介绍 

存在 主 备 链 路 组 网 的 环境 中 ， 当 主 链 路 出 现 故 障 又 从 故障 中 恢复 后 ， 业 务 流量 会 从 
备用 链 路 切换 到 主 链 路 。 在 这 个 过 程 中 ，IGP 协议 收敛 速度 要 快 于 LDP 协议 ， 这 就 会 导 
致 上 日 的 LSP 已 经 删除 ， 而 新 的 LSP 还 没 建立 好 ， 这 期 间 的 MPLS 业务 会 中 断 一 会 ， 一 
般 在 5s 左右 ，LDP 和 IGP 同步 的 目的 就 是 为 解决 这 个 问题 。 

为 使 LDP 和 IGP 同步 ， 在 主 链 路 恢复 后 ， 先 抑制 IGP 邻居 关系 的 建立 ， 从 而 推迟 
路 由 的 切换 ， 也 就 是 说 ， 在 新 的 LSP 建立 好 之 前 ， 继 续 保 留 旧 的 LSP， 流 量 继续 在 旧 的 
LSP 上 转发 ， 只 有 在 新 的 LSP 建立 好 之 后 流量 才 完 全 切换 过 来 。 

LDP 和 1IGP 同步 的 计时 器 

LDP 和 IGP 同步 过 程 需要 使 用 以 下 三 个 定时 器 。 

e Hold-down。 

e Hold-max-cost。 


e Delay。 

在 主 链 路 故障 恢复 后 : 

(1) 启动 Hold-down 定时 器 ， 在 该 定时 器 超时 前 IGP 接口 先 不 建立 IGP 邻居 关系 ， 
而 等 待 LDP 会 话 的 建立 ; 


(2) Hold-down 定时 器 超时 后 ， 启 动 Hold-max-cost 定时 器 。IGP 在 本 地 路 由 器 的 链 
路 状态 通告 中 ， 主 链 路 通告 接口 链 路 的 最 大 metric 值 ; 

(3) 故障 链 路 的 LDP 会 话 重新 建立 以 后 ， 启 动 Delay 定时 器 等 待 LSP 的 建立 。 当 
Delay 定时 器 超时 以 后 ， 无 论 IGP 的 状态 如 何 ，LDP 都 会 通知 IGP 同步 流程 结束 。 

LDP 和 IGP 同步 的 状态 机 

LDP 和 IGP 同步 过 程 中 会 经 历 如 下 几 个 状态 ; 

Init 状态 : LDP 和 IGP 同步 的 初始 化 状态 。 

Hold-down 状态 : IGP 不 收发 Hello 报 文 ， 抑 制 故 障 恢复 链 路 邻居 关系 的 建立 。 

Hold-max-cost 状态 : IGP 建立 邻居 并 在 主 链 路 通告 接口 链 路 的 最 大 metric 值 。 

Sync-achieved: LDP 和 IGP 同步 状态 。 此 时 LDP 会 话 状 态 为 Up, IGP 进入 正常 流程 。 

各 状态 之 间 的 转换 如 图 8-30 所 示 。 
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二 


Sync-achieved 









图 8-30 LDP 和 IGP 同步 的 状态 机 


1. Init 和 Sync-achieved 之 间 的 状态 转换 

Init 一 Sync-achieved: 接口 状态 变 为 Up， 且 LDP 会 话 状 态 变 为 Up。 

Sync-achieved 一 Init: 接口 状态 变 为 Down。 

2.，Init 和 Hold-down 之 间 的 状态 转换 

Init 一 Hold-down: 接口 状态 变 为 Up， 且 LDP 会 话 状 态 为 Down; 或 查询 LDP 状态 
失败 。 

Hold-down 一 Init， 接口 状态 变 为 Down。 

3. Init 和 Hold-max-cost 之 间 的 状态 转换 

Init 一 Hold-max-cost: 接口 状态 变 为 Up， 且 LDP 会 话 状态 为 Down。 

Hold-max-cost 一 Init: 接口 状态 变 为 Down。 

4. Hold-max-cost 和 Sync-achieved 之 间 的 状态 转换 

Hold-max-cost 一 Sync-achieved: LDP 会 话 状态 变 为 Up。 

Sync-achieved 一 Hold-max-cost: LDP 会 话 状态 为 Down。 

Hold-down 一 Hold-max-cost: LDP 路 由 不 可 达 或 Hold-down 定时 器 超时 。 

Hold-max-cost 一 Hold-max-cost: Hold-max-cost 定时 器 超时 ， 且 LDP 会 话 状态 为 Down。 

Hold-down 一 Sync-achieved: LDP 会 话 状 态 变 为 Up。 

LDP 和 1IGP 同步 的 应 用 场景 

如 图 8-31 所 示 ， 在 该 组 网 中 LER1 一 LSR1 一 LSR2 一 LSR3 一 LER2 为 主 链 路 ，LER1 
一 LSR1 一 LSR4 一 LSR3 一 LER2 为 备份 链 路 。 当 主 链 路 发 生 故 障 时 ， 流 量 从 主 链 路 切换 
到 备份 链 路 ， 这 个 过 程 流量 的 中 断 时 间 较 短 ， 约 几 百 毫秒 。 当 主 链 路 故障 恢复 时 ， 流 量 
从 备份 链 路 切换 到 主 链 路 ， 这 个 过 程 流量 的 中 断 时 间 较 长 ， 约 为 5s。 通 过 配置 LDP 和 
IGP 同步 功能 ， 能 够 缩短 流量 从 备份 链 路 切换 到 主 链 路 时 的 中 断 时 间 ， 并 控制 在 毫秒 级 。 





图 8-31 LDP 和 IGP 同步 的 状态 机 
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以 下 是 华为 VRP 系统 配置 同步 的 命令 ， 这 里 以 IGP 使 用 OSPF 为 例 : 
[LSRl]interface GigabitethernetO/0/0 
[LSR1l-interface]ospfldp-sync 
也 可 以 设置 接口 不 建立 OSPF 邻居 而 等 待 LDP 会 话 建立 的 时 间 间 隔 ， 即 hold-down 
计时 器 : 
ospf timer ldp-sync hold-down value, 
缺 省 情况 下 , Hold-down 定时 器 的 值 是 10s。 其 他 计时 器 也 可 以 修改 , 这 里 不 再 歼 述 。 
配置 完成 后 ， 可 以 使 用 命令 display ospf ldp-sync interface 查看 同步 信息 。 


8.2.7 ”LDP 案例 分 析 


案例 分 析 1: LDP 基础 

1. 场景 描述 及 需求 

如 图 8-32 所 示 ， 在 网 络 中 某 用 户 的 两 个 Site (Sitel 和 Site2) 之 间 的 IP 业务 流量 需 
要 通过 MPLS 域 转发 ，LER1、LSR1、LSR2、LER2 是 MPLS 服务 商 的 骨干 设备 ， 这 些 
骨干 设备 已 经 运行 和 配置 了 OSPF 协议 ， 设 备 间 互 连 的 接口 、 每 个 设备 的 环 回 口 
(Loopback0) 及 用 户 的 网 络 都 已 经 宣告 进 OSPF 路 由 协议 中 。 通 过 在 骨干 设备 上 运行 
LDP 协议 ， 从 而 可 以 创建 公 网 的 LSP 隧道， 用 来 承载 用 户 站 点 之 间 的 业务 流量 。 

1 MPLS Domain 1 
Lo0: 10.1.3.3/32 


10.1.23.0/24 





图 8-32 案例 1 场景 


2. 配置 思路 
第 1 步 : 在 所 有 LSR 上 配置 LSR-ID， 这 里 以 LER1 为 例 : 


[LER1]mpls Isr-id 10.1.1.1 


说 明 : 
LSR 没有 缺 省 的 LSR ID， 必 须 手 工 配置 ， 推 荐 使 用 LSR 某 个 Loopback 接口 的 地 址 作为 
LSR ID. 


使 用 Loopback 地 址 可 保持 LSR ID 稳定 ， 因 为 即使 在 链 路 故障 或 设备 重启 之 后 ， 
Loopback 接口 状态 也 保持 不 变 。 如 果 在 没有 修改 Transport Address〈 用 来 建立 LDP 邻居 
会 话 的 地 址 ) 的 情况 下 , LSR ID 使 用 的 地 址 必须 能 被 邻居 访问 到 , 因为 默认 情况 下 , LSR 
ID 就 是 Transport Address。 

第 2 步 : 在 所 有 LSR 上 启动 MPLS 及 MPLS LDP， 这 里 以 LERI1 为 例 。 
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首先 在 全 局 启用 MPLS 和 MPLS LDP， 然后 在 骨干 网 的 接口 上 启用 MPLS 和 MPLS 
LDP， 如 下 输出 所 示 。 

[LER1]mpls 

[LER1I-mpls]mpls ldp 


[LERI-mpls-ldp]q 

[LER1]interface gi0/0/0 
[LER1-GigabitEthernet0/0/0]mpls 
[LER1-GigabitEthernet0/0/0]mpls ldp 


3.， 验证 

可 以 通过 display mpls ldp session 验证 LDP 邻居 会 话 状态 , 以 LSR1 为 例 , 下 面 的 输 
出 信息 显示 出 LSR1 已 经 和 两 个 LDP 邻居 正确 建立 会 话 〈 会 话 状 态 为 Operational)， 如 
下 表 所 示 。 

[LSR1]dis mpls ldp session 

LDP Session(s) in Public Network 


Codes: LAM(Label Advertisement Mode), SsnAge Unit(DDDD:HH:MM) 
A *' before a session means the session is being deleted. 


PeerID Status LAM SsnRole SsnAge KASent/Reyv 





10.1.1.1:0 Operational DU Active 0000:03:40 881/881 
10.1.3.3:0 Operational DU Passive 0000:00:00 3/3 


观察 和 分 析 LSP 转发 表 ， 这 里 以 LER1 为 例 ， 如 下 所 示 。 
<LER1>display mpls lsp 


LSP Information: LDP LSP 


2 





FEC In/Out Label In/OutIF Vrf Name 
10.1.1.1/32 3/NULE -/- 

10.1.2.2/32 NULL/3 -/GE0/0/0 

10.1.2.2/32 1024/3 -/GE0/0/0 

10,1:3,3/32 NULL/1024 -/GE0/0/0 

10.03.3132 1025/1024 -/GE0/0/0 


在 上 面 的 输出 信息 中 ， 第 一 列 显示 了 每 个 FEC 对 应 的 路 由 前 级 ， 第 二 列 显示 了 该 
FEC 的 入 标签 (也 就 是 本 地 分 配 的 标签 ) 和 出 标签 (也 就 是 下 游 邻 居 为 该 FEC 分 配 的 标 
签 ), 第 三 列 显 示 了 本 地 去 往 该 目标 路 由 前 级 对 应 的 出 口 , 第 四 列表 示 路 由 前 缀 位 于 哪个 
VRF 中 ，VREF 为 空 则 表示 全 局 路 由 前 级 。 

在 LER1 的 LSP 转发 表 中 , 还 可 以 发 现 像 10.1.2.2/32 和 10.1.3.3/32 这 些 FEC, 分 别 
对 应 着 两 条 LSP， 其 中 一 条 LSP 的 入 标签 为 室 (NULL)， 另 一 条 为 非 空 。 如 果 本 地 接收 
到 去 往 该 目标 前 缀 的 全 报 文 ， 则 使 用 入 标签 为 空 的 LSP 用 于 该 全 报 文 的 转发 。 如 果 接 
收 到 的 是 带 有 标签 的 MPLS 报 文 ， 则 使 用 另 一 条 LSP 用 于 该 MPLS 报 文 的 转发 。 

在 LER1 的 LSP 转发 表 中 , 还 可 以 发 现 FEC 只 包含 每 个 骨干 设备 的 环 回 口 , 这 是 因 
为 华为 设备 默认 情况 下 只 对 主机 路 由 (/32) 分 配 标签 。 如 果 要 针对 路 由 表 的 其 他 路 由 前 
缀 产生 标签 ， 必 须 使 用 lsp-trigger 命令 : 


lsp-trigger { all | host | ip-prefix ip-prefix-name | none } 


对 其 参数 说 明 如 下 : 
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all: 可 根据 所 有 静态 路 由 和 IGP 路 由 项 分 配 标签 ， 触 发 建立 LSP; 

host: 可 根据 32 位 地 址 的 主机 IP 路 由 触发 建立 LSP， 华 为 设备 默认 使 用 的 参数 ; 

ip-prefix: 为 IP 地 址 前 绥 列 表 匹 配 的 路 由 前 绥 分 配 标签 ， 触 发 建立 LSP; 

none: 不 为 任何 路 由 前 级 分 配 标签 。 

如 果 现 在 需要 触发 建立 关于 路 由 前 级 172.16.2.0/24 的 LSP 的 建立 那么 只 需要 在 
LER2 上 配置 lsp-trigger 命令 ， 如 下 配置 所 示 。 


[LER2]ip ip-prefix 1 permit 172.16.2.0 24 。” # 为 该 路 由 前 级 分 配 标签 
[LER2]mpls 
[LER2-mplsjlsp-trigger ip-prefix 1 
验证 LER2 和 LER1 上 的 LSP 转发 表 ， 可 以 发 现 ， 此 时 在 骨干 网 中 已 经 为 路 由 前 绷 
172.16.2.0/24 建立 了 LSP，LSR1 和 LSR2 的 LSP 转发 表 输 出 在 这 里 省 略 ， 如 下 所 示 。 


[LER2]display mpls lsp 








LSP Information: LDP LSP 


FEC In/Out Label In/Out IF Vrf Name 


10.1.3.3/32 1024/3 -/GE0/0/0 
10.1.2.2/32 1025/1025 -/GE0/0/0 
10.1.1.1/32 1026/1026 -/GE0/0/0 
172.16.2.0/24 3/NULL -/- 
[LER1]display mpls lsp 


LSP Information: LDP LSP 


FEC In/Out Label In/Out IF Vrf Name 


10.1.2.2/32 NULL/3 -/GE0/0/0 
10.1.1.1/32 3/NULL "/ 
10.1.3.3/32 NULL/1024 -/GE0/0/0 
10.1.2.2/32 1024/3 -/GE0/0/0 
10.1.3.3/32 1025/1024 -/GEO/0/0 
172.16.2.0/24 1026/1027 -/GE0/0/0 


4. MPLS 数据 包 转 发 流程 分 析 

现在 假设 Sitel 中 的 主机 PC1 开始 访问 Site2 的 主机 PC2, 当 数 据 流 到 达 MPLS 骨干 
网 时 ， 我 们 一 起 来 观察 和 分 析 一 下 每 台 LSR 是 如 何 处 理 接收 到 的 报 文 的 。 

报 文 到 达 LER1 时 的 处 理 。 

首先 来 观察 一 下 LSR-A 的 LSP 转发 表 中 关于 FEC: 172.16.2.0 的 详细 信息 ， 如 下 输 
出 所 示 。 


[LER1]display mpls lsp include 172.16.2.0 24 verbose 


LSP Information: LDP LSP 


No 1 

VrfIndex - 

Fec 2 172.16.2.0/24 
Nexthop 2 
In-Label : NULL 
Out-Label STREO27 
In-Interface 
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Out-Interface : GigabitEthernet0/0/0 
LspIndex : 4096 
Token : Qe 
FrrToken : 0x0 
LsrType : Ingress 
Outgoing token :1 0x9 
Label Operation : PUSH 
Mpls-Mtu >， 1500 
TimeStamp : 108sec 
Bfd-State : -~ 
BORRKEY oo eo ed 


由 上 面 的 输出 信息 可 知 ， LER1 会 使 用 出 标签 1027 标签 操 作为 PUSH) 将 该 FEC 
的 所 有 报 文 发 至 下 一 跳 10.1.12.2 (LSR1)。 实 际 上 作为 该 LSP 的 mgress 节点 ， 当 LERI1 
接收 到 用 户 的 人 P 报 文 时 , 通过 查找 FIB 表 后 进行 转发 , 所 以 我 们 再 来 观察 一 下 FIB 表 中 
关于 该 路 由 前 缀 的 转发 信息 ， 如 下 输出 所 示 。 


[LER1]dis fib 172.16.2.0 verbose 
Route Entry Count: 1 


Destination: 172.16.2.0 Mask ;255.255:255.0 
Nexthop + 0.1.12.2 Outlf :GigabitEthernet0/0/0 
LocalAddr :10.1.12.1 LocalMask: 0.0.0.0 
Flags :DGU Age :245sec 
ATIndex :0 Slot :0 
LSpFwdFlag : 1 LspToken : OxC 
InLabel :NULL OriginAs :0 
BGPNextHop : 0.0.0.0 PeerAs :0 

QosInfo : 0x0 OriginQos: 0x0 
NexthopBak :0.0.0.0 OutIfBak : [No Intf] 
LspTokenBak: 0x0 InLabelBak : NULL 


EspToken ForInLabelBak : 0x0 
EntryRefCount : 0 


Vlanld : Ox0 

BgpKey:0 

BgpKeyBak :0 

LspType :3 Label ForLspTokenBak :0 | 
MplsMtu :1500 Gateway_ForLspTokenBak : 0.0.0.0 
NextToken ;0x0 IfIndex. ForLspTokenBak : 0 

Label NextToken : NULL Label : 1027 

LspBfdState :9 


在 上 面 的 输出 信息 中 , 可 以 发 现 路 由 前 级 172.16.2.0 在 FIB 中 对 应 着 一 个 标签 1027， 
也 就 是 转发 去 往 该 目标 路 由 前 级 的 IP 报 文 时 需要 压 入 此 标签 ， 而 这 个 标签 信息 来 源 于 
LSP 转发 表 。FIB 中 的 路 由 前 级 是 通过 使 用 LspToken 这 种 指针 的 方式 关联 致 LSP 转发 表 
的 标签 。 这 里 的 LspToken 值 为 0xC， 这 与 LSP 转发 表 中 172.16.2.0/24 对 应 的 LspToken 
值 是 相同 的 。 在 FIB 表 中 ， 如 果 该 指针 值 为 0， 则 对 应 的 报 文采 用 了 转发 的 方式 。 

下 面 的 调试 信息 显示 了 LER1 在 接收 到 报 文 时 的 处 理 过 程 ， 如 下 输出 所 示 。 


<LER1>debug mpls packet 
<LER1>debug ip packet 
<LER1>terminal monitor 
<LER1>terminal debugging 


*0.86298392LER1 ab cede 
Receiving, interface = GigabitEthernet0/0/1, yo headlen = 20, tos = 0, 
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pktlen = 84, pktid = 2284, offset = 0, t = 11, protocol = 1, 
checksum = 37682, s= 172.16.1.1, d= 172.16.2.1 
prompt: Receiving IP packet from GigabitEthernet0/0/1 


#0.86298392LER1 IP/8/debug. case: 

Sending, interface = GigabitEthemet0/0/0, version = 4, headlen = 20, tos = 0, 
bktlen = 84, pktid = 2283=4, offset = 0, ttl = 10, protocol = 1, 

checksum = 37682, s = 172.16.1.1, d = 172.16.2.1 

prompt: Sending the packet by lsp 


*0.86298392LER1 MFW/8/MPLSFW PACKET: 

PUSH Label=1027, EXP=0, TTL=10 

Sending to V1, PktLen=88, Label(s)=1027, EXP=0, TTL=10 

由 上 面 的 输出 信息 可 以 知道 ，LER1 在 接收 到 该 IP 报 文 后 ， 在 报 文中 压 入 了 标签 
1027， 通 过 MPLS 转发 的 方式 进行 转发 。 大 家 也 可 以 通过 同样 的 方法 观察 一 下 其 他 骨干 
设备 对 MPLS 报 文 的 处 理 过 程 。 

案例 分 析 2: 路 由 汇总 对 LSP 的 影响 

根据 前 文 内 容 可 知 ，LDP 会 依据 路 由 表 中 的 路 由 前 级 进行 标签 的 分 配 ， 同 时 根据 标签 
的 分 发 方式 , 将 本 地 分 配 的 标签 通告 给 LDP 邻居 ， 从 而 触发 建立 LSP。 这 时 ， 如 果 在 MPLS 
上 骨干 网 络 内 部 对 某 路 由 前 缀 进行 了 汇总 ， 那 么 标签 的 分 配 和 LSP 建立 结果 又 是 怎样 的 呢 ? 

为 便于 读者 理解 ， 对 案例 分 析 1 (如 图 8-32 所 示 ) 稍微 作 了 一 下 修改 ， 将 MPLS 骨干 
网 划分 为 两 个 OSPF 区 域 ，LER1、LSR1、LSR2 互 连 的 接口 位 于 区 域 0，LSR2 和 LER2 互 
连 的 接口 及 LER2 右 侧 的 接口 位 于 区 域 1， 然 后 在 LSR2 上 对 路 由 前 172.16.2.0/24 做 路 由 
汇总 ， 汇 总 后 的 路 由 前 缀 为 172.16.0.0/22。 我 们 对 比 一 下 在 路 由 汇总 前 后 LSP 转发 表 的 变化 。 

1. 汇总 前 LSR2 和 LSRI 的 LSP 转发 表 

LSR2 的 LSP 转发 表 ， 如 下 输出 所 示 。 


[LSR2]display mpls Isp 


LSP Information: LDP LSP 


FEC InOutLabel In/OutIF Vrf Name 
172.16.2.0/24 1031/3 -/GEO/0/1 


LSR1 的 LSP 转发 表 ， 如 下 输出 所 示 。 
[LSR1]display mpls lsp 


LSP Information: LDP LSP 


FEG In/Out Label In/OutIF Vrf Name 
172.16.2.0/24 1032/1031 -/GEOQ/0/1 


由 上 面 的 输出 信息 可 以 发 现 ， 对 于 FEC: 172.16.2.0，LSR1 能 正常 收 到 来 其 下 游 邻 
居 LSR2 的 标签 。 

2. 汇总 后 LSR2 和 LSRI 的 LSP 转发 表 

首先 ， 读 者 应 该 要 清楚 一 点 ，OSPF 在 做 完 路 由 汇总 后 ， 不 会 在 路 由 表 中 自动 生成 
指向 接口 null0 的 黑洞 路 由 ， 所 以 在 LSR2 汇总 后 ， 不 能 针对 汇总 路 由 分 配 标签 (即使 用 
了 lsp-trigger 命令 也 不 行 )， 读 者 可 以 验证 一 下 LSR2 的 LSP 转发 表 是 否 存 在 关于 
FEC:172.16.0.0/22 的 转发 信息 。 汇 总 后 的 路 由 《172.16.0.0/22) 会 通告 给 LSR1， 而 明细 
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路 由 172.16.2.0/24 不 再 通告 给 LSR1， 所 以 这 时 的 问题 就 是 LSR1 虽然 得 到 了 路 由 
172.16.0.0/22, 但 并 未 接收 到 LSR2 关于 该 路 由 前 级 的 标签 分 配 信息 。 由 于 华为 设备 默认 
采用 有 序 控制 的 方式 来 建立 LSP， 所 以 LSR1 既然 没有 接收 到 其 下 游 邻居 的 标签 信息 ， 
它 自身 也 不 再 将 分 配 标签 信息 给 到 上 游 邻 居 (LER1)。 也 就 是 说 ， 对 于 由 用 户 Sitel 发 往 
目标 路 由 前 级 172.16.2.0/24 的 数据 包 来 说 ， 经 过 路 径 LER1、LSR1、LSR2 时 ， 使 用 的 
是 卫 转发 方式 ; 经 过 LSR2 后 ， 采 用 的 是 MPLS 转发 方式 。 也 就 是 说 ， 对 于 该 FEC 来 
说 ，LSP 实际 上 是 不 连续 的 。 

总 缩 : 

在 MPLS 骨干 网 内 部 不 建议 对 路 由 进行 汇总 ， 否 则 会 导致 LSP 不 连续 ， 难 以 保证 IP 报 
文 的 转发 ， 尤 其 是 在 MPLS VPN 骨干 网 内 部 ， 路 由 汇总 还 可 能 会 导致 用 户 的 VPN 业务 无 法 
正确 传输 到 目的 站 点 。 


案例 分 析 3: LDP 标签 过 滤 

在 MPLS 网 络 中 ， 有 些 路 由 器 资源 有 限 ， 为 降低 资源 开销 ， 减 少 不 必 要 的 LSP 的 建 
立 ，LDP 在 为 邻居 通告 标签 时 可 以 进行 标签 过 滤 。 

8-33 所 示 的 场景 中 ,假设 MPLS 域 的 LSR3 资源 利用 率 较 高 ， 为 节省 开销 ,减少 
LSP 的 数量 ， 只 接收 FEC: 172.16.1.0/24 和 FEC: 172.16.2.0/24 的 标签 映射 信息 ， 可 以 
通过 在 LSR3 上 配置 LDP Inbound 策略 来 实现 此 需求 。 


MPLS Domain 


| 
I 
I 
1 | 
Lo0:! 10.1.4.4/32 





LERI1 访 半 


PC1 PC2 


图 8-33 ”案例 分 析 3 场景 


在 LSR3 上 配置 LDP Inbound 策略 ， 只 接收 由 LSR1 发 出 的 对 应 路 由 前 缀 的 标签 映 
射 报 文 ， 如 下 输出 所 示 。 

[LSR3]ip ip-prefix 1 permit 172.16.1.0 24 

[LSR3]ip ip-prefix 1 permit 172.16.2.0 24 ”# 使 用 前 级 列表 匹配 需要 接收 标签 映射 信息 的 对 应 FEC 路 由 前 级 

[LSR3jmpls ldp 

[LSR3-mpls-ldp]inbound peer 10.1.2.2 fec ip-prefix 1 # 配 置 LDP Inbound 策略 ， 只 接收 过 滤 后 的 标签 映射 报 文 

配置 完 过 滤 策 略 后 ,检查 一 下 LSR3 的 LSP 转发 表 , 可 以 发 现 从 LSRI1 接收 到 的 FEC 
标签 映射 信息 ， 如 下 输出 所 示 。 

[LSR3]dis mpls lsp nexthop 10.1.25.1 #10.1.25.1 是 LSR1 的 人 P 
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FEC In/Out Label In/Out IF VrfName 
172.16.1.0/24 1030/3 -/GE0/0/0 
172.16.1.0/24 NULL/3 -/GE0/0/0 
172.16.2.0/24 NULL/1031 -/GEO0/0/1 
172.16.2.0/24 1036/1031 -/GE0/0/1 


思考 题 ，peer id 是 lsr id 还 是 接口 IP? 

案例 分 析 4 LDP 的 空 标签 

1. 隐 式 空 标签 

大 家 通过 前 文 的 学 习 都 知道 在 MPLS 网 络 中 , 因为 缺 省 开启 了 倒数 第 二 跳 弹 出 机 制 ， 
报 文 在 到 达 MPLS 网 络 的 边界 之 前 就 已 经 弹出 标签 。 为 实现 倒数 第 二 跳 弹 出 机 制 , MPLS 
网 络 边界 路 由 器 使 用 了 一 个 特殊 的 标签 一 一 隐 式 空 标签 〈 标 签 值 为 3)， 如 图 8-34 所 示 ， 
LER1 针对 自己 的 直 连 网 络 10.1.45.0/24 映射 的 标签 是 3 号 标签 ， 然 后 将 这 个 映射 信息 发 
送 给 LDP 邻居 ， 并 查看 LSR3 和 LER1 的 LSP 转发 表 的 情况 。 


G/N EE 





图 8-34 MPLS 的 空 标签 


查看 LSR3 和 LER1 的 MPLS LSP 转发 表 ， 如 下 输出 所 示 。 


[LER1]display mpls lsp 


LSP Information: LDP LSP 


FEC In/Out Label In/OutIF VIf Name 





10.1.4.4/32 3/NULL 时 
10.1.1.1/32 NULL/1024 -/GE0/0/0 
10.1.1.1/32 1024/1024 -/GE0/0/0 
10.1.2.2/32 NULL/1025 -/GEO/0/0 
10.1.2.2/32 1025/1025 -/GE0/0/0 
10.1.3.3/32 NULL/3 -/GE0/0/0 
10.1.3.3/32 1026/3 -/GE0/010 
10.1.5.5/32 1027/NULL su 
10.1.34.0/24 3/NULL 天 
10.1.45.0/24 3/NULL 了 上 # 本 地 映射 的 标签 为 3 
5.5.5.0/24 1028/NULL A 
[LSR3]display mpls lsp 


FEC In/Out Label In/Out IF Vrf Name 
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10.1.3.3/32 3/NULL =-/- 
10.1.1.1/32 NULL/1024 -/GE0/0/0 
10.1.1.1/32 1024/1024 -/GE0/0/0 
10.1.2.2/32 NULL/3 -/GE0/0/0 
10.1.2.2/32 1025/3 -/GE0/0/0 
10.1.4.4/32 NULL/3 -/GEO/0/1 
10.1.4.4/32 1026/3 -/GEO/0N1 
10.1.5.5/32 NULL/1027 -/GEO/0/1 
10.1.5.5/32 1027/1027 -/GEO/0/1 
10.1.45.0/24 1028/3 -/GEO/0/1 
5.5.5.0/24 1029/1028 -/GEO0/0/1 


由 上 面 的 输出 信息 可 以 看 到 ， 在 LSR3 上 FEC (10.1.45.0/24) 对 应 的 出 标签 为 3， 
表示 报 文 的 标签 弹出 后 直接 转发 ， 不 需要 压 入 新 的 标签 。 也 就 是 所 有 发 往 目 的 网 络 
10.1.45.0/24 的 报 文 在 到 达 LER1 时 都 是 不 带 标签 的 IP 报 文 ， 所 以 LER1 只 需 根据 耳 转 
发 表 进 行 转发 处 理 。 

说 明 : 
如 果 接 收 到 的 报 文 有 多 层 标 签 (比如 在 MPLS VPN 的 网 络 中 ) ， 那 么 弹出 的 是 最 外 层 标 
签 ， 内 层 标 签 不 受 影响 。 


2. 显 式 空 标签 

如 果 在 MPLS 网 络 中 部 署 了 QoS, 最 后 一 跳 MPLS 路 由 器 还 需要 通过 标签 中 的 EXP 
字段 来 获知 QoS 信息 , 所 以 要 保证 报 文 到 达 MPLS 边界 时 还 是 携带 标签 的 。 一 般 情况 下 ， 
如 果 边 界 路 由 器 接收 到 的 是 带 有 标签 的 报 文 ， 先 是 要 查找 标签 转发 表 ， 而 后 还 要 查找 了 
转发 表 ， 比 较 消 耗资 源 。 为 了 使 边界 路 由 器 能 正确 实施 MPLS 的 QoS 策略 ， 同 时 不 加 重 
路 由 器 的 负担 ， 引 入 了 另 一 个 特殊 的 标签 一 一 显 式 空 标 签 〈 标 签 值 为 0)。 边 界 路 由 器 接 
收 到 带 有 显 式 空 标签 的 报 文 后 , 可 通过 标签 中 的 EXP 读 取 QoS 的 参数 信息 , 读 取 完 QoS 
信息 后 直接 将 标签 移 除 , 也 就 是 说 不 需要 查找 标签 转发 表 , 直接 通过 IP 转发 表 进行 转发 。 

在 FEC 的 最 后 一 跳 路 由 器 上 ， 可 通过 命令 label advertise, 为 自己 直 连 的 网 络 映射 一 
个 显 式 空 标签 ， 如 图 8-34 所 示 ， 在 LER1 上 将 隐 式 空 标签 改 为 显 式 空 标签 : 


[LER1]mpls 
[LER1-mpls]label advertise explicit-null 


这 时 来 观察 一 下 LER1 的 标签 转发 表 ， 如 下 输出 所 示 。 


[LER1]display mpls lsp 
LSP Information: LDP LSP ~ 
FEC In/Out Label In/OutIF 人 VrfName 
10.1.4.4/32 ONULL -人 - 
10.1.34.0/24 ONULL -/- 
10.1.1.1/32 NULL/1024 -/GE0/0/0 
10.1.1.1/32 1024/1024 -/GE0/0/0 
10.1.2.2/32 NULL/1025 -/GE0/0/0 
10.1.2.2/32 1025/1025 -/GE0/0/0 
10.1.3.3/32 NULL/3 -/GE0/0/0 
10.1.5.5/32 1027/NULL -/- 


由 输出 信息 可 知 ， 在 华为 设备 中 ， 不 像 隐 式 空 标签 那样 ， 路 由 器 可 以 为 所 有 直 连 网 
络 映射 标签 〈 条 件 是 配置 了 lsp-trigger 策略 )， 而 接口 不 论 是 否 启用 了 MPLS， 相 应 的 直 
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连 网 络 都 会 被 映射 到 0 号 标签 。 

3. 出 标签 为 NULL 

如 下 表 所 示 ， 有 些 FEC 对 应 的 出 标签 为 室 (NULL)， 这 表示 收 到 的 报 文 要 剥离 掉 
所 有 标签 ， 然 后 以 IP 的 方式 进行 转发 。 这 类 FEC 对 应 的 网 络 是 本 地 直 连 或 是 从 其 他 卫 
路 由 器 接收 到 的 路 由 前 级 。 比 如 对 于 5.5.5.0/24 这 个 路 由 前 绥 来 说 ， 出 标签 为 室 ， 那 是 
因为 该 路 由 的 下 一 跳 邻 居 (AR) 没有 运行 MPLS，AR 没有 标签 映射 信息 发 送 到 LER1。 
这 时 ，LER1 也 不 会 在 本 地 为 这 样 的 路 由 前 级 映射 一 个 隐 式 或 显 式 空 标签 ， 而 是 一 个 普 
通 的 标签 值 ， 如 下 输出 所 示 。 


[LER1]display mpls lsp 

LSP Information: LDP LSP 
FEC In/Out Label ”In/Out 下 VrfName 
10.1.4.4/32 3/NULL - 
10.1.34.0/24 ONULL -/- 
10.1.1.1/32 NULL/1024 CC -/GE0/0/0 
10.1.1.132 1024/1024 CC -/GE0/0/0 
10.1.2.2/32 NULL/1025 ~- -/GE0/0/0 
10.1.2.2/32 1025/1025 9c-/GE0/0/0 
10.1.3.3/32 NULL/3 -/GE0/0/0 
10.1.5.5/32 1027/NULL ~- 
10.1.3.3/32 1026/3 -/GE0/0/0 
10.1.45.0/24 3MNULL -/- 
5.5.5.0/24 1028/NULL 


当 LER1 接收 到 FEC (5.5.5.0/24) 报 文 时 ， 由 于 出 标签 为 空 、 所 以 需要 到 离 挤 报 广 
的 所 有 标签 ， 然 后 以 人 P 报 文 转发 的 方式 转发 出 去 。 


8.3 MPLS VPN 


8.3.1 VPN 基础 


VPN 是 指 利用 IP 基础 设施 (比如 公用 的 Internet 或 专用 的 人 P 骨干 网 等 ) 来 实现 专 
用 广域网 专线 技术 (比如 DDN 等 ) 的 业务 仿真 技术 。 通 俗 地 讲 ， 就 是 企业 利用 公共 网 
络 来 建立 私 网 的 连接 。 在 这 个 私 网 的 连接 上 传送 的 业务 流量 对 于 公 网 来 说 是 不 可 见 的 ， 
当然 跟 其 他 私 网 的 连接 也 是 相互 隔离 起 来 的 。 

随 着 加 密 、 隧 道 等 技术 的 不 断 出 现 ， 客 户 对 VPN 组 网 的 需要 也 在 发 生变 化 ， 衍 生 
出 本 VPN 类 型 。 

. 按 VPN 的 应 用 分 类 

Remote Access VPN 〈 远 程 接 入 VPN): 客户 端 到 网 关 ， 使 用 公 网 作为 骨干 网 在 设备 
之 间 传 输 VPN 数据 流量 。 

IntranetVPN (内 联网 VPN): 网 关 到 网 关 ， 通 过 公司 的 网 络 架构 连接 来 自 同 公司 的 资源 。 

Extranet VPN 〈 外 联网 VPN): 与 合作 伙伴 企业 网 构成 Extranet， 将 一 个 公司 与 另 一 
个 公司 的 网 络 进行 连接 。 
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2. 按 VPN 的 协议 分 类 

VPN 的 隧道 协议 主要 4 种 : PPTP，L2TP、IPSec 和 MPLS， 其 中 ，PPTP 和 L2TP 
协议 工作 在 TCP/IP 第 二 层 ， 又 称 为 二 层 隧 道 协议 ; IPSec 是 第 三 层 的 隧道 协议 ， 也 是 最 
常见 的 协议 。L2TP 和 IPSec 配合 使 用 是 目前 性 能 最 好 且 企 业 网 络 中 应 用 较为 广泛 的 一 种 ; 
MPLS 是 基于 第 二 层 之 上 和 第 三 层 之 下 的 隧道 技术 。 

MPLS VPN 是 一 种 基于 MPLS 技术 的 IP VPN， 是 在 网 络 路 由 和 交换 设备 上 应 用 
MPLS (Multiprotocol Label Switching， 多 协议 标记 交换 ) 技术 ， 简 化 核心 路 由 器 的 路 由 
选择 方式 , 利用 结合 传统 路 由 技术 的 标签 交换 实现 的 IP 虚拟 专用 网 络 (IP VPN)。MPLS 
的 优势 在 于 将 二 层 交 换 和 三 层 路 由 技术 结合 起 来 ， 在 解决 VPN、 服 务 质 量 (QoS) 和 流 
量 工程 (TE) 这 些 IP 网 络 的 重大 问题 时 具有 很 优异 的 表现 。 因 此 ，MPLS VPN 在 解决 
企业 互 连 、 提 供 各 种 新 业务 方面 也 越 来 越 被 运营 商 看 好 ， 成 为 在 运营 商 网 络 中 提供 增值 
业务 的 重要 手段 。MPLS VPN 又 可 分 为 二 层 MPLS VPN ( 即 MPLS L2 VPN) 和 三 层 
MPLS VPN ( 即 MPLS L3 VPN)。 这 一 节 我 们 重点 讲解 一 下 三 层 MPLS VPN。 

由 于 MPLS VPN 是 基于 公 网 的 骨干 网 来 构建 的 , 因此 为 企业 各 站 点 之 间 的 通信 提供 了 强 
大 的 传输 能 力 ， 节 省 了 企业 内 网 互 连 的 成 本 ,减轻 了 用 户 网 络 运营 和 管理 的 负担 ， 同 时 又 能 
满足 用 户 数据 的 安全 、 带 宽 等 方面 的 需求 。 目 前 在 基于 了 P 网 络 中 的 MPLS VPN 具有 以 下 优点 。 

。 ”降低 了 成 本 。 

MPLS 简化 了 ATM 与 IP 的 集成 技术 ， 有 效 地 结合 了 L2 和 3 技术 ， 降 低 了 成 本 ， 
保护 了 用 户 的 前 期 投资 。 

。 提高 了 资源 利用 率 。 

由 于 在 骨干 网 中 使 用 标签 交换 ， 因 此 用 户 各 站 点 的 局 域 网 可 以 使 用 重复 的 卫 地 址 ， 
提高 了 了 IP 地 址 资源 利用 率 。 

。 提高 了 网 络 速率 。 

由 于 使 用 标签 交换 ， 因 此 缩短 了 每 一 跳 过 程 中 地 址 搜索 的 时 间 ， 减 少 了 数据 在 网 络 
传输 中 的 时 间 ， 提 高 了 网 络 速度 。 

。 提高 了 灵活 性 和 可 扩展 性 。 

由 于 MPLS 使 用 的 是 Any to Any 的 连接 ， 因 此 提高 了 网 络 的 灵活 性 和 可 扩展 性 。 灵 
活性 方面 ， 可 以 制订 特殊 的 控制 策略 ， 满 足 不 同 用 户 的 特殊 需求 ， 实 现 增值 业务 。 扩 展 
性 包括 : 一 是 网 络 中 可 以 容纳 的 VPN 数目 更 大 , 二 是 在 同一 VPN 中 的 用 户 很 容易 扩充 。 

。 方便 了 用 户 。 

MPLS 技术 将 更 广泛 地 应 用 在 各 个 运营 商 的 网 络 当中 ， 这 样 给 企业 用 户 建立 全 球 的 
VPN 带 来 极 大 的 方便 。 

。 安全 性 高 。 

用 户 的 数据 在 MPLS 网 络 中 传递 时 ， 是 以 隧道 (LSP) 的 方式 传递 的 ， 所 以 MPLS 
具有 像 帧 中 继 和 ATM 类 似 的 高 可 靠 安全 性 。 

。 业务 综合 能 力 强 。 

网 络 能 够 提供 数据 、 语 音 、 视 频 相 融合 的 能 力 。 

。 MPLS 的 QoS 保证 。 

用 户 可 以 根据 不 同 的 业务 需求 ， 通 过 在 CE 端的 配置 来 赋予 不 同 的 QoS 等 级 。 通 过 
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ss 
这 种 QoS 技术 ， 既 保证 了 网 络 的 服务 质量 ， 又 降低 了 用 户 的 费用 。 
。 ”适用 于 较 大 的 企 事业 单位 。 
适用 于 具有 以 下 特征 的 企业 高 效 动作 、 商 务 活动 频繁 、 数 据 通信 重大、 对 网 络 依 
赖 度 高 、 有 很 多 分 支 机 构 ， 如 互联 网 公司 、IT 公司 、 金 融 业 、 贸 易 行业 :新 闻 机 构 等 。 
企业 网 的 节点 数 较 多 ， 通 常 将 达到 几 十 个 以 下 。 而 像 城 域 网 这 样 的 网 络 环境 ， 业 务 类 型 
多 样 、 业 务 流向 流量 不 确定 ， 特 别 适合 使 用 MPLS VPN。 


8.3.2 ”MPLS VPN 的 网 络 结构 
如 图 8-35 所 示 ， 一 个 典型 的 VPN 网 络 中 具有 以 下 不 同 的 设备 角色 。 





图 8-35 ”MPLS VPN 模型 


CE (Custom Edge): 用 户 网 络 的 边界 设备 ， 直 接 与 服务 提供 商 网 络 相 连 ，CE 设备 
可 以 是 路 由 器 、 交 换 机 或 主机 等 设备 。 

PE (Provider Edge Router): 指骨 干 网 络 的 边界 设备 ， 直 接连 接 CE， 从 而 提供 VPN 
业务 的 接 入 ，PE 设备 可 以 是 路 由 器 或 交换 机 等 设备 。 

P (Provider Router): 骨干 网 络 中 的 核心 路 由 器 ， 主 要 是 提供 骨干 网 内 部 的 路 由 和 数 
据 包 的 快速 转发 服务 。 

在 MPLS VPN 中 ，P 和 PE 路 由 器 运行 了 MPLS， 用 户 设备 不 需要 运行 MPLS。 在 CE 
和 了 PE 之 间 需 要 完成 三 层 路 由 信息 的 交换 ， 而 P 设备 只 需要 学 习 和 计算 骨干 网 内 部 的 路 由 。 
一 个 PE 可 以 连接 多 台 CE 〈 共 享 PE)， 也 可 以 只 连接 一 台 CE〈 专 用 PE)。 用 户 的 数据 流 先 
通过 人 P 转发 方式 转发 到 PE， 然 后 再 通过 MPLS 标签 转发 的 方式 穿越 整个 MPLS 网 络 。 


8.3.3 ”MPLS VPN 基本 概念 


VPN-Instance 

在 一 个 典型 的 MPLS VPN 网 络 中 ，CE 和 PE 之 间 可 以 使 用 任何 IP 路 由 协议 技术 来 
交换 用 户 的 私 网 路 由 ， 但 是 当 多 个 VPN 用 户 连 接 到 同一 个 PE 上 或 者 不 同 VPN 用 户 之 
间 和 需要 相互 通信 时 ， 因 为 不 同 用 户 的 地 址 空间 可 能 会 在 一 定 范围 内 重合 ， 例 如 ，VPN1 
和 VPN2 都 使 用 10.10.10.0/24 网 段 地 址 ， 导 致 地 址 空间 的 重 又 (Address Spaces 
Overlapping)， 而 在 PE 上 产生 路 由 冲突 。 所 以 ,在 PE 上 必须 将 这 些 不 同 VPN 用 户 的 路 
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由 隔离 起 来 , 这 就 产生 了 VPN 实例 的 技术 , VPN 实例 也 称 为 VPN 路 由 转发 表 VRF(VPN 
Routing and Forwarding Table)。 一 个 VPN 实例 相当 于 一 台 虚 拟 的 路 由 器 ， 这 人 台 虚 拟 路 由 
器 具有 自己 的 接口 、 路 由 转发 表 等 资源 ， 在 控制 平面 上 是 独立 运行 的 。 每 个 VPN 用 户 都 
会 在 PE 上 拥有 自己 的 VPN 实例 ， 当 PE 收 到 来 自 不 同 用 户 的 私 网 路 由 时 ， 会 将 其 放 在 
该 用 户 对 应 的 VPN 实例 的 路 由 转发 表 中 。 一 台 PE 可 以 拥有 多 个 路 由 转发 表 ， 包 括 一 个 
公 网 路 由 转发 表 ， 以 及 一 个 或 多 个 VPN 路 由 转发 表 。 

VPN 实例 技术 实际 上 解决 了 两 大 问题 : (1) 在 PE 上 解决 不 同 VPN 用 户 的 路 由 冲突 
问题 (2) 不 需要 使 用 ACL 等 工具 ， 简 化 了 隔离 不 同 用 户 网 络 的 操作 。 如 图 8-36 所 示 
的 场景 中 ， 两 个 不 同 VPN 用 户 (VPN1 和 VPN2) 连接 到 同一 个 PE 上 ， 这 时 如 果 在 PE1 
和 PE2 上 为 VPN1 和 VPN2 都 创建 了 相应 的 VPN 实例 ,那么 当 PE 接收 到 来 自 这 两 个 VPN 
用 户 的 私 网 路 由 时 , 会 存放 在 不 同 的 VPN 实例 转发 表 中 。 这 样 ， 即 使 这 两 个 VPN 用 户 的 
私 网 地 址 空间 有 重 垩 , 在 PE 上 也 不 会 产生 路 由 冲突 的 问题 , 因为 不 同 VPN 实例 的 路 由 转 
发 表 之 间 是 相互 隔离 的 。 同 时 ,来 自用 户 的 私 网 路 由 也 不 会 进入 骨干 网 中 的 公 网 全 局 路 由 
转发 表 ， 因 为 用 户 VPN 实例 中 的 路 由 转发 表 和 全 局 路 由 转发 表 之 间 也 是 相互 隔离 的 。 





图 8-36 ”VPN 实例 


说 明 : 
公 网 路 由 转发 表 与 VPN 实例 存在 以 下 不 同 。 


。 公 网 路 由 表 包 括 所 有 PE 和 了 设备 的 IPv4 路 由 ,该 路 由 可 能 通过 静态 路 由 或 者 
动态 路 由 协议 产生 。 

。 VPN 实例 的 路 由 表 包 括 属于 该 VPN 实例 用 户 的 所 有 Site 的 路 由 ， 通 过 CE 与 
PE 之 间或 者 两 个 PE 之 间 的 VPN 路 由 信息 交互 获得 。 

。 ” 公 网 转发 表 是 根据 路 由 管理 策略 从 公 网 路 由 表 提 取出 来 的 转发 信息 , 而 VPN 转 
发 表 是 根据 路 由 管理 策略 从 对 应 的 VPN 路 由 表 提取 出 来 的 转发 信息 。 

。 可 以 看 出 ，PE 上 的 各 VPN 实例 之 间 相 互 独立 ， 并 与 公 网 路 由 转发 表 也 是 相互 
独立 的 。 
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。 可 以 将 每 个 VPN 实例 看 作 一 台 虚 拟 的 设备 , 维护 独立 的 地 址 空间 并 有 连接 到 私 
网 的 接口 。 

RD (Route Distinguisher) 

用 户 的 VPN 路 由 是 通过 MP-BGP (多 协议 BGP) 在 MPLS VPN 骨干 网 络 中 来 传递 
的 ， 如 果 来 自 不 同 用 户 的 VPN 路 由 地 址 空间 相同 ，BGP 协议 就 无 法 区 分 这 是 来 自 哪个 
用 户 的 路 由 了 ， 为 了 保证 每 个 用 户 的 VPN 路 由 的 唯一 性 ， 引 入 了 RD 的 概念 。 

通过 在 PE 上 为 每 个 用 户 分 配 一 个 唯一 的 RD 值 ， 并 且 在 通告 用 户 私 网 路 由 时 附带 
上 该 RD 值 , 这 时 在 接收 端 路 由 器 收 到 不 同 用 户 的 VPN 路 由 后 ， 因 为 每 条 路 由 有 一 个 唯 
一 标识 符 ( 即 RD 值 )， 所 以 能 区 分 出 这 些 路 由 是 否 来 自 同 个 用 户 ， 不 会 因为 BGP 在 进 
行 最 优 路 由 选择 时 ， 导 致 某 些 用 户 的 VPN 路 由 被 弃 选 。 比 如 一 台 PE 在 接收 到 两 条 来 自 
不 同 用 户 、 相 同 前 级 的 VPN 路 由 时 ， 根 据 BGP 的 选 路 原则 ， 会 在 这 两 条 路 由 中 选择 出 
最 优 路 由 ， 另 一 条 路 由 就 会 被 “冷落 ”了 。 

在 一 条 IPv4 路 由 前 级 之 前 加 上 RD 值 后 ,就 变 成 VPN-IPv4 地 址 徐 了 (可 简称 VPNv4 
地 址 簇 )，VPNv4 地 址 簇 只 在 运营 商 骨 干 网 内 部 存在 ， 由 PE 路 由 器 产生 并 发 布 ， 如 
图 8-37 所 示 。 


YE 将 IPv4 的 客户 
路 由 通告 给 PE1 










PE 将 VRF 中 配置 的 64bit RD 
值 附加 在 32bit 的 IPv4 前 级 上 
形成 96bit 的 VPNv4 前 级 







时 PE1 将 这 些 VPNv4 前 级 ， 
通过 MP-BGP 传递 给 PE2 










RD 值 被 从 VPNv4 
前 缀 中 去 掉 ， 得 到 
32bit 的 IPv4 前 组 





图 8-37 RD 的 应 用 


用 户 的 CE 设备 先 将 一 条 IPv4 的 私 网 路 由 前 级 (1.1.1.0/24) 通告 给 PE，PE 从 VPN 
实例 中 将 该 路 由 引入 至 MP-BGP， 并 且 将 RD 值 添 加 至 IPv4 路 由 前 级 之 前 变 成 了 96bit 
的 VPNv4 路 由 , 然后 发 布 到 骨干 网 中 的 其 他 PE。 当 另 一 侧 的 PE 收 到 该 VPNv4 路 由 后 ， 
在 其 发 布 给 CE 之 前 ， 先 将 RD 剥离 掉 ， 还 原 回 IPv4 的 路 由 再 通告 给 对 面 的 CE 路 由 器 。 

RD 值 共 64bit， 这 64bit 的 值 有 两 种 表示 方式 : ASN:nn 和 IP-Address:nn， 其 中 mn 
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代表 数字 ， 管 理 员 可 以 自 定 义 。 最 常用 的 格式 为 ASN:nn， 其 中 ASN 代表 自治 系统 号 。 
通常 情况 下 , 在 服务 提供 商 所 使 用 的 ASN:nn 中 , ASN 是 IANA 分 配给 服务 提供 商 的 AS 
号 , nn 可 以 是 服务 提供 商 分 配给 每 个 VPN 实例 的 唯一 号 码 。RD 并 没有 什么 特定 的 语法 
要 求 ， 它 只 不 过 是 用 来 唯一 标识 VPN 路 由 的 。 具 体格 式 如 下 。 


Route Distinguisher(8-Byte) 
DR 
Type Field Administrator 1 Assigned 
(2-Byte) Subfield | Number Subfield 


下 面 解 释 一 下 其 中 的 字段 。 

Type Field (类 型 域 ): 该 字段 用 于 定义 Administrator Subfield〈 管 理子 域 ) 的 表示 
方法 ， 目 前 定义 了 两 个 值 (0 和 1)。 

类 型 取 值 为 0 时 ， 管 理子 域 占 用 2 个 Byte，Assigned Number (分 配 号 ) 使 用 4 个 
Byte， 管 理子 域 使 用 AS 号 (公有 AS 号 )， 分 配 号 由 服务 提供 商 设 置 和 管理 。 

类 型 取 值 为 1 时 ,管理 子 域 占用 4 个 Byte, 分 配 号 占用 2 个 Byte; 管理 子 域 使 用 IPv4 
地 址 ， 分 配 号 子 域 值 由 服务 提供 商 设置 和 管理 。 

VPN Target 

VPN Target (也 称 为 Route Target，RT) 是 BGP 的 一 个 扩展 团体 属性 ， 用 来 判断 路 
由 该 被 送 入 到 哪个 VPN 实例 中 ， 或 者 可 以 说 ，VPN 实例 使 用 RT 来 表达 对 路 由 的 喜好 。 
当 一 个 PE 将 VPN 路 由 引入 到 MP-BGP 后 ， 就 会 让 其 携带 一 个 RT 值 ， 然 后 送 到 远 端 的 
PE， 远 端的 PE 根据 RT 值 来 决定 将 其 送 往 哪个 VPN 实例 。 

VPN 实例 中 的 RT 值 分 为 Export (导出) 和 Import (导入) 两 种 值 ，Export 的 RT 
会 在 VPNv4 路 由 发 布 出 来 时 携带 ， 在 VPNv4 路 由 的 接收 端 PE 上 ,会 比较 路 由 携带 过 
来 的 Export RT 值 跟 本 地 所 有 VRF 的 Import RT 值 ， 如 果 匹 配 上 了 ， 该 路 由 就 被 送 往 相 
应 的 VRF 路 由 表 ， 如 图 8-38 所 示 。 

由 图 8-38 可 知 ，PE1 在 将 CE1 发 过 来 的 IPv4 路 由 转变 为 VPNv4 路 由 时 ， 除 了 添加 一 
个 RD 以 外 , 还 携带 了 一 个 Export RT 值 , 当 PE2 接收 到 该 VPNv4 路 由 后 , 将 其 转变 了 IPv4 
路 由 ， 再 通过 匹配 各 VRF 的 Import RT 值 ， 从 而 将 该 IPv4 路 由 加 入 到 指定 的 路 由 表 中 。 
根据 发 送 过 来 带 有 export RT 值 与 本 地 所 有 的 VRF 
的 import RT 值 匹配 ， 如 果 有 某 个 VPN 实例 的 
import RT 匹配 上 了 ， 则 把 VPNv4 路 由 变 为 IPv4 
路 由 ， 并 且 根 据 本 地 VRF 的 import RT 属性 加 入 


到 相应 的 VRF 中 ， 私 网 标签 保留 ， 留 做 转发 时 使 
用 ， 再 由 本 VRF 的 路 由 协议 引入 并 转发 给 相应 的 
CE 







C 
10.1.5.0/24 10.1.6.0/24 





图 8-38 ”RT 的 应 用 
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前 面 提 到 RT 是 一 种 BGP 扩展 团体 属性 (Type 值 为 0x0002 或 0x0102)， 具 体格 式 
如 下 。 


Type(0x0002) AS#(16bit) Value(32bit) 


Type(Ox0102) IP address(16bit) Value(32bit) 


除去 2 个 Byte 的 类 型 值 外 ，RT 值 后 面 6 个 Byte 的 表示 形式 可 以 有 以 下 几 种 。 

。 2 字 节 自治 系统 号 : 4 字 节 用 户 自 定义 数 ， 例 如 1:3。 自 治 系统 号 的 取 值 范围 是 
0 一 65535， 用 户 自 定义 数 的 取 值 范围 是 0 一 4294967295。 其 中 ， 自 治 系统 号 和 
用 户 自 定义 数 不 能 同时 为 0，， 即 VPN Target 的 值 不 能 是 0:0。 

。 JIPv4 地 址 : 2 字 节 用 户 自 定义 数 ， 例 如 192.168.122.15:1。IP 地 址 的 取 值 范围 是 
0.0.0.0 一 255.255.255.255， 用 户 自 定义 数 的 取 值 范围 是 0 一 65535。 

。 整数 形式 4 字 节 自治 系统 号 : 2 字 节 用 户 自 定义 数 ， 自 治 系统 号 的 取 值 范围 是 
65536 一 4294967295， 用 户 自 定义 数 的 取 值 范围 是 0 一 65535， 例 如 65537:3。 其 
中 ， 自 治 系统 号 和 用 户 自 定义 数 不 能 同时 为 0， 即 VPN Target 的 值 不 能 是 0:0。 

e 点 分 形式 4 字 节 自治 系统 号 : 2 字 节 用 户 自 定义 数 ， 点 分 形式 自治 系统 号 通常 

写成 x.y 的 形式 ，x 和 y 的 取 值 范围 都 是 0~65535， 用 户 自 定义 数 的 取 值 范围 
是 0 一 65535， 例 如 : 0.0:3 或 者 0.1:0。 其 中 ， 自 治 系统 号 和 用 户 自 定义 数 不 能 
同时 为 0， 即 VPN Target 的 值 不 能 是 0.0:0。 

一 条 VPNv4 路 由 可 以 携带 多 个 RT 值 ， 而 这 个 特性 可 以 让 我 们 很 轻松 地 实现 相同 
VPN 或 不 同 VPN 的 站 点 之 间 的 路 由 控制 ， 比 如 在 某 一 用 户 的 VPN 网 络 中 ， 只 允许 分 支 
站 点 和 总 部 站 点 互相 通告 路 由 ， 而 不 允许 分 支 站 点 之 间 的 路 由 交换 ， 可 以 在 每 个 站 点 设 
置 相 应 VRF 的 RT 值 来 实现 需求 。 

如 图 8-39 所 示 ， 某 客户 公司 有 3 个 站 点 (总 部 、 分 支 1、 分 支 2)， 客 户 希望 通过 
MPLS VPN 实现 站 点 之 间 的 互 访 ， 同 时 还 要 求 分 公司 之 间 通 信 的 流量 必须 经 过 总 部 ， 以 
实现 安全 控制 和 流量 监控 。 





VRFA VRFA 
Export RT=1:2 Es EXport RT=1:3 
Import RI=1:1 = Import RT=1:1 


8-39 Hub-and-Spoke 网 络 


为 实现 上 述 需 求 , 可 以 在 总 部 站 点 的 PE1 上 , 为 总 部 的 VPN 实例 设置 两 个 Import RT 
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本 
值 ， 分 别 对 应 两 个 分 支 站 点 的 Export RT 值 。 而 两 分 支 站 点 的 VPN 实例 只 能 接收 来 自 总 
部 的 路 由 信息 ， 通 过 这 种 方法 来 控制 不 同 站 点 之 间 (不论 是 同一 VPN 内 部 或 不 同 VPN 
之 间 ) 的 路 由 交换 。 具 体 的 部 署 方法 将 会 在 后 文案 例 中 详细 介绍 。 


8.3.4 路 由 发 布 过 程 


前 文中 提 到 过 ， 用 户 站 点 内 的 路 由 信息 需要 先 通过 CE 发 布 给 PE 设备 ， 这 时 PE 和 
CE 之 间 可 以 运行 任何 动态 路 由 协议 或 静态 协议 ， 比 如 静态 路 由 、RIP、OSPF、IS-IS、 
BGP。PE 从 CE 学 习 到 的 路 由 先 放 进 VPN 实例 的 路 由 表 ， 然 后 再 将 其 引入 到 MP-BGP 
成 为 VPNv4 路 由 后 发 布 到 骨干 网 络 。 为 了 使 路 由 进入 骨干 网 络 后 具有 唯一 性 ，MP-BGP 
给 IPv4 路 由 添加 了 一 个 RD 值 ， 从 而 允许 不 同 的 用 户 地 址 空间 可 以 重 又 ， 并 且 使 用 了 
RT 值 来 标识 此 路 由 是 去 往 哪 个 VPN 实例 的 。 下 面 就 来 具体 分 析 一 下 , 在 MPLS VPN 中 
路 由 的 详细 交换 过 程 。 

在 MPLS VPN 中 路 由 交换 可 以 分 成 以 下 几 个 阶段 。 

。 CE 到 PE 之 间 的 路 由 交换 。 

。 PE 将 VRF 中 的 路 由 注入 进 MP-BGP。 

。 VPNv4 路 由 在 骨干 网 中 传递 。 

。 PE 将 VPNv4 路 由 注入 到 VRF 中 。 

1. CE 到 PE 之 间 的 路 由 交换 过 程 

如 图 8-40 所 示 ，PE 和 CE 之 间 通 过 标准 的 BGP、OSPF、IS-IS、RIP 或 者 静态 路 由 
交换 路 由 信息 。 这 个 过 程 中 , PE 需要 将 CE 传 来 的 路 由 分 别 存放 在 不 同 的 VPN 实例 ( 根 
据 路 由 进入 的 接口 来 判断 路 由 是 属于 哪个 VPN 实例 )， 除 此 之 外 ， 其 他 操作 和 普通 的 路 
由 交换 没有 任何 区 别 。 静 态 路 由 、RIP、BGP、OSPF、IS-IS 都 是 标准 的 协议 ， 所 有 的 
CE 端 都 可 以 使 用 相同 的 路 由 协议 ， 但 是 需要 在 PE 的 每 个 VRF 运行 不 同 路 由 协议 实例 ， 
相互 之 间 没 有 干扰 。PE 和 CE 之 间 不 同 的 路 由 协议 的 详细 配置 在 下 一 节 作 具体 介绍 。 


CE 与 PE 之 间 路 由 交换 ; 
BGP 





图 8-40 PE-CE 路 由 交互 


2. PE 将 VPN 实例 中 的 路 由 引入 到 MP-BGP 

PE 从 CE 学 习 到 客户 的 私 网 路 由 后 ， 需 要 将 这 些 私 网 路 由 从 VPN 实例 中 引入 到 
MP-BGP 成 为 VPNv4 路 由 (如 果 PE 和 CE 之 间 运 行 的 是 BGP， 就 不 需要 引入 )， 如 
图 8-41 所 示 。 

如 图 8-40 所 示 ,， 当 PE 将 VPN 实例 中 的 客户 私 网 路 由 引入 到 MP-BGP 后 , 会 在 IPv4 
路 由 前 缀 的 前 面 添加 一 个 RD 形成 VPNv4 路 由 。 然 后 在 VPNv4 路 由 通告 中 携带 ExportRT 
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值 ， 还 会 为 该 VPNv4 路 由 分 配 一 个 私 网 标签 〈 每 条 VPNv4 都 会 映射 到 一 个 私 网 标签 ， 
由 MP-BGP 协议 随机 自动 分 配 )， 同 时 还 将 路 由 的 下 一 跳 修 改 成 自己 。 这 些 操作 完成 后 ， 
PE 将 VPNv4 路 由 发 布 到 所 有 的 MP-BGP 邻居 。 


VPNv4 Update 


100:1:10.1.5.0/24(RD 100:1+IPv4) 
NH=PE] 

RT=100:1 

Label=15362 
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图 8-41 路 由 引入 到 MP-BGP 


3. VPNv4 路 由 在 公 网 中 传递 

客户 的 私 网 路 由 在 PE 上 被 引入 到 MP-BGP 后 变 成 了 VPNv4 路 由 ， 这 些 VPNv4 路 
由 需要 传递 到 其 他 的 PE (或 者 先 传递 到 骨干 网 中 的 RR， 再 由 RR 反射 到 其 他 PE)。 如 
果 这 些 PE 都 在 同一 个 AS 中 ， 那 么 需要 在 PE 之 间 配 置 MP-iBGP 邻居 关系 (或 者 所 有 
PE 都 与 RR 建立 MP-iBGP 邻居 关系 )， 经 过 多 协议 扩展 后 的 BGP 可 以 用 来 传递 VPNv4 
路 由 ， 如 图 8-42 所 示 。 


VPNv4 Update 


100:1:10.1.5.0/24(RD 100:1+IPv4) 
NH=PE1 

SOO=Sitel RT=100:1 
Label=15362 
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图 8-42 VPNv4 路 由 的 传递 


4. PE 将 VPNv4 路 由 注入 到 VPN 实例 

在 PE 收 到 邻居 的 VPNv4 路 由 后 ， 由 于 VPNv4 路 由 携带 了 Export RT 值 , 可 以 根据 
本 地 VRF 的 Import RT 值 将 路 由 导入 到 相对 应 的 VRF 中 ,并 且 RD 值 在 路 由 被 注入 时 会 
被 移 除 变 成 IPv4 路 由 ， 再 通过 本 地 PE-CE 之 间 运 行 的 路 由 协议 把 IPv4 路 由 发 布 到 CE， 
如 图 8-43 所 示 。 

这 里 要 注意 的 是 ，VPNv4 路 由 是 有 私 网 标签 的 ， 这 个 标签 是 用 来 进行 数据 转发 的 ， 
PE 不 会 将 其 发 送 给 CE， 而 是 存放 在 FIB 中 。 

经 过 以 上 四 个 步骤 后 ，VPN 客户 不 同 的 站 点 之 间 实 现 了 私 网 路 由 的 交换 ， 构 建 起 了 
一 个 VPN。 我 们 可 以 发 现 ， 骨 干 网 上 只 有 PE 才 会 维护 私 网 路 由 ( 放 在 VRF 中 )， 而 其 核 
心 设 备 (P 路 由 器 ) 不 会 接收 到 任何 私 网 路 由 ， 只 有 公 网 的 路 由 ， 从 而 节省 了 设备 开销 。 
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图 8-43 ”路 由 引入 到 VPN 实例 


5， 典 型 案例 分 析 

组 网 需求 

如 图 8-44 所 示 ， 某 客户 〈VPNA) 的 两 个 站 点 〈Sitel 和 Site2) 通过 MPLS VPN 实 
现 互 访 ， 其 中 CE1 连接 Site1，CE1 通过 服务 提供 商 的 PE1 接 入 至 MPLS VPN 骨干 网 ; 
CE2 连接 Site2，CE2 通过 服务 提供 商 的 PE2 接 入 至 MPLS VPN 骨干 网 。 























和 Da | 

1 MPLS VPN Backbone 

| 

| AS 100 | 

Lo0:| 10.1.1.1/32 Lo0: 10.1.2.2/32 Lo0: 10.1.3.3/32 Lo0: 110.1.4.4/32 
> /0 ER 
Goom GO/0/0 at GO/0/1 G0/0/0 a Go/onl 
1 民 | 





1 PE1l Pi P2 PE2 | 
化 =| 
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图 8-44 MPLS VPN 组 网 案例 


。 配置 信息 

服务 商 骨干 网 的 AS 号 为 100，IGP 使 用 OSPF; 服务 商 为 客户 分 配 的 VPN 实例 名 
为 vpna，RD 值 为 100:1，Sitel 和 Site2 的 Import RT 值 和 Export RT 值 均 为 1:1; PE-CE 
之 间 使 用 OSPF 协议 交换 私 网 路 由 ，Sitel 和 Site2 均 在 Area0 中 。 

下 面 列 出 了 设备 中 的 关键 配置 数据 。 

PE1 配置 : 


# 

sysname PE1 

站 

其 

ip vpn-instance vpna 

ipv4-family 

route-distinguisher 100:1 
vpn-target 1:1 export-extcommunity 
vpn-target 1:1 import-extcommunity 

## 


mpls lsr-id 10.1.1.1 


mpls 
# 
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私 网 站 点 之 间 路 由 信息 的 交换 过 程 分 析 
这 里 以 Sitel 中 1.1.5.0/24 的 路 由 信息 发 送 至 Site2 中 为 例 ， 分 析 一 下 整个 路 由 传递 
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的 过 程 。 

第 1 步 :首先 CE1 通过 OSPF 协议 将 网 络 1.1.5.0/24 以 IPv4 路 由 的 方式 发 送 给 PE1， 
可 以 在 PE1 的 VPN 实例 vpna 的 路 由 表 中 查看 到 该 路 由 ， 如 下 输出 所 示 。 

[PE1]display ip routing-table vpn-instance vpna = 

Route Flags: R-relay, D-download to fib 


区 


Routing Tables: vpna 


Destinations : 7 Routes :7 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
1.1.5.0/240SPF 10 1 D 121612 GigabitEthernet0/0/0 
(其 他 输出 信息 略 ) 


第 2 步 : PE1 将 IPv4 路 由 1.1.5.0/24 引入 到 MP-BGP， 形 成 VPNv4 路 由 ，VPNv4 
路 由 将 携带 该 客户 的 RD 以 及 Export RT 值 ， 使 用 以 下 方法 查看 这 条 VPNv4 路 由 信息 。 


[PE1]jdisplay bgp vpnv4 all routing-table 


BGP Local router ID is 10.1.12.1 
Status codes: *-valid, >-best, d-damped, 
h-history, i-internal, s-suppressed, S-Stale 
Origin : i-IGP, e-EGP, ?-incomplete 
Total number of routes from all PE: 4 


Route Distinguisher: 100:1 #RD 值 
Network NextHop MED LocPrf PrefVal Path/Ogn 
"> ,L024 0.0.0.0 2 0 和 
(其 他 输出 信息 略 ) 


[PE1]display bgp vpnv4 all routing-table 1.1.5.0 24 


BGP local router ID : 10.1.12.1 
Local AS number : 100 


Total routes of Route Distinguisher(100:1): 1 
BGP routing table entry information of 1.1.5.0/24: 
Imported route. 
Label information (Received/Applied): NULL/1029 
From: 0.0.0.0 (0.0.0.0) 
Route Duration: 00h05m18s 
Direct Out-interface: GigabitEthernet0/0/0 
Original nexthop: 172.16.1.2 
Qos information : 0x0 
Ext-Community:RT <1 : 1>, OSPF DOMAIN ID <0.0.0.0 ; 0>，#RT 值 是 以 BGP 扩展 团体 属性 方式 携带 的 
OSPF RT <0.0.0.0 : 1 : 0>, OSPF ROUTER ID <172.16.1.1 : 0> 
AS-path Nil, origin incomplete, MED 2, pref-val 0, valid, local, best, select, p 
re 255 | 
Advertised to such 1 peers: 
10.1.4.4 


同时 , MP-BGP 还 会 为 这 条 VPNv4 路 由 分 配 一 个 私 网 标签 (下 文 会 介绍 这 个 标签 的 
作用 )。 下面 的 输出 信息 显示 了 PE1 为 vpna 中 的 1.1.5.0/24 路 由 分 配 的 私 网 标签 为 1030。 
[PE-1]display mpls lsp 


2 


LSP Information: BGP LSP 


-~-~--~-~-~~----~~-----~~---~---~~---------~---~----~-~---~-----~- 一 -~--------- ---------------------~------------------------ 


FEC In/Out Label ”In/Out IF Vif Name 


559 ii 


| HCIE 路 由 交换 学 习 指 南 | 


1.1.5.0/24 1030NULL 沪 vpna 
(其 他 输出 信息 略 ) 


第 3 步 : PE1 将 这 条 VPNv4 路 由 发 布 到 MP-iBGP 邻居 PE2， 下 面 显示 了 通过 wireshark 
抓 取 的 MP-BGP VPNv4 路 由 更 新 报 文 的 详细 格式 。 
Ethernet IT, Src: HuaweiTe_ef:sf:c9 (OO:e0:feref;5f:c9), Dst: HuaweiTe 97:71:fb (OO0re0ofer97:71 Th) 
Multiprotocol Label Switching Header, Label: 1025, Exp: 6, Ss: 1, TTE: 255 


图 InEernert ‘protocol Version’4, Stes 10.1,.%1 (CLO .TL), Doty L014 4 COLL A 
四 Transmission Control Protoco1，Src Port; 49400 (49400), Dst port: bgp (179), seq: 198, Ack: 153, Len: 115 
[ [| PBATE 网 已 * 






Marker: 
Length: 115 
Type: UPDATE Message (2) 
unfeasible routes length: 0 bytes 
Total path attribute length: 92 bytes 
SB Path attributes 
困 ORIGIN; INCOMPLETE (4 bytes) 
弄 AS_PATH: empty (3 bytes) 
MULTI_EXIT_DISC: 2 (7 bytes) 
因 LOCAL_PREF: 100 (7 bytes) 
EXTENDED_COMMUNITIES: (35 bytes) 

田 Flags: 0xc0 (optional, Transitive, Complete) 
Type code: EXTENDED_COMMUNITIES (16) 
Length: 32 bytes 

Carried Extended communities _ 

two-octet AS specific Route Targdet: 1:1 
OsPF Domain: 0.0.0.0 
Unknown 
Unknown 
BB MP_REACH_NLRI (36 bytes) 
图 Flags: Ox90 (optional, Non-transitive, Complete, Extended Length) 

Type code: MP_REACH_NLRI (14) 

Length: 32 bytes 

Address family: IPv4 (1) 

Subsequent address family identifier: Labeled VvPN Unicast (128) 

困 Next hop network address (12 bytes) 
subnetwork points of attachment: 0 
BB Network layer reachability information (15 bytes) 




















下 面 的 输出 显示 了 PE2 上 已 经 接收 到 该 VPNv4 路 由 。 


[PE2]display bgp vpnv4 all routing-table 
Route Distinguisher: 100:1 


Network NextHop MED LocPrf & PrefVal Path/Ogn 
*>i “1.1.5.0/24 10.1.1.1 2 100 0 2 
〈 其 他 输出 信息 略 ) 


第 4 步 : PE2 根据 该 VPNv4 路 由 的 Export RT 值 导入 到 Site2 的 VPN 实例 路 由 表 中 ， 
导入 前 VPNv4 路 由 被 剥离 掉 RD 值 变 回 IPv4 路 由 , 并 且 将 该 VPNv4 路 由 携带 的 私 网 标 
签 存放 至 VPN 实例 的 转发 表 中 ， 下 面 的 输出 显示 了 在 Site2 的 VPN 实例 转发 中 已 经 拥 
有 该 路 由 的 转发 信息 。 

[PE2]display fib vpn-instance vpna 

Route Flags: G-Gateway Route, H-Host Route, U-Up Route 


S-Static Route, D-Dynamic Route, B-Black Hole Route 
L-Vlink Route 


~----~------------~-----------~--------------------------------------- --------------------------------------------- 


FIB Table: 
Total number of Routes : 7 


Destination/Mask ”Nexthop Flag TimeStamp Interface TunnelID 
1.1.5.0/24 10.1.34.1 DGU  t[6865] GE0/0/0 0x5 
(其 他 输出 信息 略 ) 


继续 观察 这 条 路 由 的 详细 信息 可 以 发 现 由 PE1 通告 过 来 的 私 网 标签 ,如 下 输出 所 示 。 


[PE2]display fib vpn-instance vpna 1.1.5.0 24 verbose 
Route Entry Count: 1 


E560 


| 第 作 章 MPLS 及 MPLS VPN | 


Destination: 1.1.5.0 Mask :255.255.255.0 
Nexthop :10.1.34.1 OutIf :GigabitEthernet0/0/0 
LocalAddr :10.1.34. 2 LocalMask: 0.0.0.0 
Flags :DGU Age :1458sec 
ATIndex :0 Slot :0 
LspFwdFlag : 1 + LspToken : 0x5 
InLabel :1030 OriginAs:0 | 
BGPNextHop ; 10.1.1.1 PeerAs :0 

QosInfo :0x0 OriginQos: 0x0 
NexthopBak : 0.0.0.0 OutIfBak : [No Intf] 
LspTokenBak: 0x0 InLabelBak : NULL 


LspToken ForInLabelBak : 0x0 
EntryRefCount :0 


Vlanld : 0x0 

BgpKey :2 

BgpKeyBak :0 

LspType :0 Label ForLspTokenBak :0 

MplsMtu 人 Gateway ForLspTokenBak : 0.0.0.0 

NextToken : 0x0 IfIndex_ForLspTokenBak : 0 

Label NextToken :0 Label:0 

LspBfdState ;0 

第 5 步 : PE2 将 来 自 Sitel 的 私 网 路 由 发 布 给 CE2。 下 面 的 输出 显示 了 CE2 已 经 接 
收 到 该 路 由 。 

[CE2]display ip routing-table 


Route Flags: R-relay D-download to fib 


Routing Tables; Public 


Destinations ; 12 Routes:12 
Destination/Mask Proto Pre Cost Flags NextHop interface 
Il5024 OSPF 10 和 D 172.1621 GigabitEthemet0/0/0 
(其 他 输出 信息 略 ) 


以 上 就 是 通过 MPLS VPN 骨干 网 在 客户 站 点 之 间 完 成 私 网 路 由 信息 交 换 的 整个 过 
程 。 虽然 私 网 路 由 是 通过 服务 商 的 骨干 网 来 传递 的 ， 但 是 只 有 PE 设备 才 会 处 理 和 维护 
私 网 路 由 ， 骨 干 网 内 部 的 P 路 由 器 不 会 有 任何 私 网 路 由 信息 ， 从 而 降低 了 资源 开销 。 因 
此 , 当 MPLS VPN 业务 数据 流 经 过 骨干 网 络 中 的 P 设备 时 , 必须 使 用 MPLS 标签 转发 的 
方式 。 下 一 节 将 详细 介绍 通过 MPLS VPN 传递 业务 数据 流 的 过 程 。 


8.3.5 ”数据 转发 过 程 


数据 转发 概述 
在 实现 了 私 网 路 由 的 交换 后 ， 我 们 再 看 一 下 如 何 通过 该 VPN 来 传递 业务 流量 。 首 
先 数据 流 由 CE 到 PE 使 用 的 是 IP 转发 ， 这 个 很 容易 理解 。 而 数据 流 要 经 过 骨干 网 ， 因 
为 骨干 网 内 部 P 路 由 器 没有 私 网 路 由 ， 也 就 是 没 办 法 使 用 IP 转发 ， 这 时 就 应 该 想到 用 
MPLS 标签 转发 技术 。 在 卫 报 文 进入 到 MPLS 骨干 网 的 PE 后 封装 上 一 个 公 网 标签 ， 该 
ee LSP， 数 据 包 通过 LSP 隧道 转发 到 出 站 的 PE， 中 间 的 P 路 
只 使 用 标签 交换 转发 方式 ， 而 不 需要 卫 转发 ， 数 据 包 的 入 站 PE 和 出 站 PE 同时 使 
证 IP 转发 和 标签 转发 。 
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那 公 网 中 的 LSP 是 如 何 建立 的 ? 它 是 由 LDP 协议 通过 为 公 网 中 的 IGP 路 由 映射 标 
签 ， 然 后 进行 分 发 标签 等 过 程 后 来 建立 的 (详细 过 程 在 下 一 小 节 介绍 )。 

当 数 据 包 到 达 出 站 PE 时 ， 因 为 是 从 公 网 的 接口 接收 到 的 数据 包 ， 所 以 还 必须 使 用 
一 个 VPN 标签 ( 私 网 标签 ) 用 于 判断 数据 包 通过 哪个 VPN 实例 进行 转发 。 私 网 标签 在 
前 文中 有 提 到 过 ， 它 是 由 MP-BGP 协议 生成 的 ， 每 条 VPN 路 由 都 会 有 一 个 私 网 标签 ， 
出 站 的 PE 可 以 借 私 网 标签 知道 该 向 哪个 VPN 转发 数据 。 

所 以 ， 在 VPN 的 业务 数据 通过 MPLS 骨干 网 时 会 带 上 两 层 标签 〈 公 网 标签 和 私 网 
标签 )， 公 网 标签 位 于 外 层 ， 用 于 使 数据 包 穿越 整个 公 网 发 送 到 出 站 的 PE; 私 网 标签 位 
于 内 层 , 用 于 判断 该 数据 包 属于 哪个 VPN 实例 。 下 面 从 三 个 阶段 具体 分 析 整 个 数据 转发 
的 过 程 。 

e。 数据 从 CE 到 入 站 PE。 

e 数据 从 入 站 PE 到 出 站 PE。 

e 数据 从 出 站 PE 到 远 端 的 CE。 

1. 数据 从 CE 到 入 站 PE 

如 图 8-45 所 示 ，Site2 去 往 Sitel 的 业务 数据 由 CE2 转发 到 PE2 (普通 亿 转发 ) 后 ， 
pE2 根据 数据 包 进入 的 接口 ， 查 找 相应 的 VPN 实例 转发 表 , 找到 该 路 由 在 公 网 的 下 一 跌 
(对 端 PE 的 Loopback 接口 ) 和 私 网 标签 。 封 装 完 私 网 标签 后 ， 再 通过 公 网 的 标签 转发 
表 ， 碍 找到 去 往 公 网 中 下 一 跳 地 址 的 标签 ， 该 标签 作为 公 网 标签 封装 进 数据 包 ， 封 装 完 


两 层 标签 后 ， 数 据 包 被 转发 进 MPLS 网 络 。 
数据 去 往 
10.1.5.0/24，NH=PE2 





10.1.5.0/24 10.1.6.0/24 


1024 15362 | 10.1.5.1 


图 8-45 数据 由 CE 到 PE 


2， 数 据 由 入 站 PE 转发 到 出 站 PE 


15362 | 10.1.5.1 15362 | 10.1.5.1 1024 | 15362 10.1.5.1 


Lo0: 1.1.1.1/32 










Lo0: 3.3.3.3/32 


10.1.5.0/24 10.1.6.0/24 
图 8-46 PE 之 间 的 数据 转发 





说 明 
数据 包 实际 转发 时 不 会 携带 3 号 标签 ， 这 里 出 现 3 号 标签 是 为 了 方便 表述 原理 。 
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如 图 8-46 所 示 , 在 前 文 有 说 到 , 当 了 他 报 文 由 入 站 PE 进入 MPLS 网 络 后 会 通过 LSP 
转发 ， 并 且 通 过 中 间 的 P 设备 查找 标签 转发 表 进 行 标 签 交 换 ， 最 终 通 过 公 网 LSP 转发 到 
出 站 的 PE。 

3.， 数据 由 出 站 的 PE 转发 给 远 端的 CE 

当 数 据 包 由 MPLS 骨干 网 转发 到 达 出 站 PE 时 , 只 剩 下 一 层 私 网 标签 , 这 是 因为 PHP 
(倒数 第 二 跳 弹 出 ) 的 原因 ， 公 网 标签 已 经 在 倒数 第 二 跳 的 P 设备 剥离 掉 了 。 出 站 PE 利 
用 该 私 网 标签 判断 出 该 数据 包 去 往 的 VPN 实例 ， 在 查找 到 相应 的 VPN 实例 转发 表 后 ， 
移 除 该 私 网 标签 ， 将 报 文 还 原 为 IP 报 文 后 再 转发 给 CE， 如 图 8-47 所 示 。 


10.1.5.1 15362 10,1.5.1 







Lo0: 3.3.3.3/32 





10.1.5.0/24 10.1.6.0/24 


图 8-47 数据 由 PE 到 CE 


至 此 ， 客 户 通过 MPLS VPN 完成 了 私 网 站 点 之 间 的 流量 转发 ， 可 以 发 现 VPN 业务 
的 数据 流 是 经 过 骨干 网 的 LSP 隧道 方式 进行 转发 的 ， 从 而 保证 了 客户 数据 的 安全 性 。 这 
里 需要 强调 的 是 ， 传 递 VPN 业务 数据 流 时 需要 使 用 到 两 层 标签 〈 私 网 标签 + 公 网 标签 )， 
公 网 标签 用 于 帮助 VPN 业务 数据 流 穿越 公 网 中 的 LSP， 而 私 网 标签 用 于 LSP 的 出 站 PE 
进行 判断 该 向 哪个 VPN 实例 进行 转发 ,那么 这 两 个 标签 是 如 何 产生 的 ? 其 实在 上 一 节 讲 
到 VPNv4 路 由 的 交换 过 程 中 提 到 了 私 网 标签 的 生成 , 这 里 我 们 再 了 解 一 下 公 网 标签 和 私 
网 标签 的 详细 分 配 过 程 。 

公 网 标签 分 配 

通过 上 一 小 节 的 分 析 后 , 读者 都 清楚 了 ， 当 MPLS VPN 业务 数据 流 发 送 从 一 个 站 点 
到 另 一 个 站 点 时 需要 携带 两 层 标签 ; 公 网 标签 和 私 网 标签 ,首先 读者 要 明白 在 MPLS VPN 
中 为 什么 需要 公 网 标签 ， 没 有 公 网 标签 就 不 能 传输 VPN 业务 流量 吗 ? 如 果 读 者 充分 理 
解 了 上 一 小 节 所 讲述 的 内 容 ， 那 么 这 个 问题 的 答案 是 显而易见 的 。 因 为 MPLS VPN 骨 
于 网 中 的 P 路 由 器 并 没有 私 网 路 由 ， 所 以 骨干 网 不 能 使 用 卫 转发 的 方式 来 转发 VPN 
业务 数据 流 , 而 是 使 用 MPLS 标签 转发 的 方式 , 这 就 需要 骨干 网 的 PE 之 间 为 每 个 VPN 
客户 建立 一 条 或 多 条 公 网 LSP, VPN 业务 流通 过 入 站 PE 进入 骨干 网 后 , 通过 相应 LSP 
转发 到 出 站 PE。 公 网 标签 是 由 骨干 网 内 部 的 LDP 协议 根据 IGP 路 由 或 静态 路 由 而 产 
生 的 标签 , 那么 下 面 就 来 具体 分 析 一 下 通过 LDP 协议 产生 公 网 标签 并 建立 公 网 LSP 的 

前 文中 有 提 到 ，VPNv4 路 由 通过 MP-iBGP 在 PE 之 间 交 换 ， 两 个 PE 需要 使 用 
Loopback 接口 来 建立 MP-iBGP 邻居 ， 所 以 在 MPLS 骨干 网 内 部 需要 使 用 IS-IS、OSPF 
等 IGP 协议 来 打通 PE 和 了 路 由 器 之 间 的 路 由 连通 性 。 当 所 有 了 和 PE 路 由 器 都 有 了 公 
网 的 路 由 后 ， 通 过 LDP 协议 互相 通告 标签 映射 ， 从 而 建立 公 网 路 由 的 标签 转发 表 。 下 面 
以 图 8-48 的 案例 为 例 来 介绍 一 下 公 网 LSP 的 建立 过 程 。 
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A = 
1 MPLS VPN Backbone | 
AS 100 
Lo0:110.1.1.1/32 Lo0: 10.1.2.2/32 Lo0: 10.1.3.3/32 Lo0: 110.1.4.4/32 
G0/0n0 ES GO001 oo0n0n Si 


1.1.5.0/24 1.1.6.0/24 





图 8-48 MPLS VPN 组 网 案例 


如 图 8-48 所 示 ，PE1 和 PE2 之 间 通 过 Loopback0 接口 建立 MP-iBGP 邻居 ，Sitel 和 
Site2 已 经 完成 了 VPNv4 路 由 的 交换 。 现 以 Sitel 访问 Site2 方向 的 数据 流 为 例 ， 对 LSP 
的 入 站 PE1 来 说 ， 到 达 Site2 的 下 一 跳 为 10.1.4.4， 那 么 需要 有 到 该 下 一 跳 的 LSP。 由 于 
LDP 协议 依据 IGP 的 路 由 前 缀 (FEC) 来 建立 LSP。LSP 的 出 站 PE2 会 通过 LDP 协议 
将 自己 的 Loopback0 〈10.1.4.4/32) 对 应 的 标签 映射 发 布 给 P 路 由 器 ，P 路 由 器 在 收 到 出 
站 PE 的 标签 时 也 会 生成 自己 的 标签 , 然后 发 布 给 其 上 游 LDP 邻居 。 这 样 , 在 入 站 PE1 
处 会 收 到 来 自 P 路 由 器 的 关于 出 站 PE2 的 Loopback0 路 由 的 标签 , 也 就 是 在 入 站 PE1 处 
会 拥有 去 往 下 一 跳 ( 出 站 PE2 的 Loopback0) 的 标签 ， 这 样 建立 了 公 网 的 LSP。 下 面 的 
输出 显示 了 PE1 上 关于 到 下 一 跳 10.1.4.4 的 LSP 转发 信息 ， 其 中 ， 标签 1025 (out-label) 
就 是 由 LDP 邻居 分 配 的 ， 如 下 输出 所 示 。 


[PE1]display mpls lsp include 10.1.4.4 32 verbose 





LSP Information: LDP LSP 
No i! 
VrfIndex 
“Fec : 10.1.4.4/32 
Nexthop :A0122 
In-Label : NULL 
”Out-Label >， 
In-Interface 9 
Out-Interface : GigabitEthernet0/0/1 
LspIndex : 6148 
Token : 0x5 
FrrToken : 0x0 
LsrType : Ingress 
Outgoing token :~ 0x0 
Label Operation : PUSH 
Mpls-Mtu :1500 
TimeStamp : 21495sec 
Bfd-State 2 
BGPKey : 


我 们 再 来 观察 一 下 p2 上 有 关 10.1.4.4 的 LSP 转发 信息 ， 如 下 输出 所 示 。 


[P21]display mpls lsp include 10.1.4.4 32 verbose 


--------------------------------------------~------------------------- ------------: 
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~---------~-~---------~---~-----------------~-------~-----~-~-~------~-----~--- -~--~------~-~-------~----~-----------------------~ 


No 

VrfIndex ‘ 

Fec : 10.1.4.4/32 

Nexthop “» ,10.1.34.2 

In-Label 2 11025 

Out-Label :3 

In-Interface 0 

Out-Interface : GigabitEthernet0/0/1 

LsplIndex .: 6148 

Token . 0x4 

FrrToken 0x0 

ILsrType Transit 

Outgoing token + 0x0 

Label Operation : SWAP 

Mpls-Mtu Ee 

TimeStamp : 22116sec 

Bfd-State ; 一 

BGPKey 

可 以 发 现 ， 公 网 标签 实 条 际 上 在 数据 流 到 达 出 站 PE2 之 前 就 已 经 被 弹出 了 ， 这 是 由 于 

启用 了 PHP 机 制 的 原因 。 


私 网 标签 的 分 配 及 数据 转发 流程 分 析 

在 上 一 小 节 讲述 过 ,PE 在 生成 VPNv4 路 由 时 会 为 每 条 VPN 路 由 映射 一 个 私 网 标签 ， 
然后 将 VPN 路 由 连同 其 标签 一 并 发 送 给 其 他 PE， 关 于 具体 的 发 布 过 程 ， 读 者 可 以 复习 
一 下 图 8-48 所 示 的 典型 案例 分 析 内 容 ， 这 里 不 再 著述 。 读 者 要 通过 这 一 小 节 明 白 私 网 标 
签 是 如 何 使 用 的 。 

在 理解 了 MPLS VPN 控制 平面 的 所 有 工作 过 程 后 ， 我 们 再 来 分 析 一 下 通过 MPLS 
VPN 传递 业务 数据 流 的 过 程 ， 这 里 还 是 以 图 8-48 所 示 的 案例 场景 为 例 。 

现 以 vpna 的 Sitel 中 1.1.5.0/24 访问 Site2 中 的 1.1.6.0/24 为 例 。 

第 1 步 ， CE1 使 用 他 转发 的 方式 将 数据 流量 转发 至 PE1。 

第 2 步 : PE1 接收 到 来 自 CE1 的 数据 流量 时 ， 查 找 VPN 实例 (vpna) 的 FIB 表 ， 
根据 FIB 表 中 的 转发 信息 压 入 对 应 的 标签 ,然后 转 至 下 一 跳 P1。 这 里 我 们 来 看 一 下 PE1 
VPN 实例 〈vpna) 的 FIB 表 关 于 目标 路 由 前 级 1.1.6.0/24 的 详细 信息 ， 如 下 输出 所 示 。 


[PE1]dis fib vpn-instance vpna 1.1.6.0 24 Verbose 
Route Entry Count: 1 


Destination: 1.1.6.0 Mosk 255,255.255.0 
Nexthop :10.1.12.2 Outlf :GigabitEthernet0/0/1 
LocalAddr :10.1.12.1 LocalMask: 0.0.0.0 
Flags :DGU Age : 18747sec 
ATIndex :0 Slot :0 . 
LspFwdFlag: 1 .LspToken : Ox5 
InLabel :1029 OriginAs : 0 
BGPNextHop : 10.1.4.4 | PeerAs :0 
QosInfo :0x0 OriginQos: 0x0 
NexthopBak : 0.0.0.0 OutIfBak : [No Intf] 
LspTokenBak: 0x0 InLabelBak : NULL 


LspToken. ForInLabelBak : 0x0 
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EntryRefCount :0 

Vlanld : 0x0 

BgpKey :2 

BgpKeyBak :0 

LspType :0 Label ForLspTokenBak :0 
MplsMtu :0 Gateway ForLspTokenBak : 0.0.0.0 
NextToken :0x0 IfIndex_ForLspTokenBak :0 

Label NextToken:0 Label :0 


LspBfdState :0 

由 上 面 的 输出 信息 可 以 发 现 ， 此 时 PE1 会 在 报 文中 压 入 私 网 标签 (InLabel〉1029， 
读者 是 否 还 记得 这 个 私 网 标签 是 如 何 进 入 FIB 表 的 昵 ?” 同 时 ， 这 条 目标 路 由 前 缀 是 由 
BGP 邻居 PE2〈 地 址 是 10.1.4.4) 通告 过 来 的 ， 所 以 报 文 需要 送 达 到 PE2， 而 要 送 达 到 
这 个 地 址 ， 必 须 有 到 达 这 个 地 址 的 LSP， 这 时 再 查看 一 下 PE1 公 网 LSP 转发 表 ， 如 下 输 
出 所 示 。 


[PE1]displaympls lsp 


LSP Information: BGP LSP 





FEC In/Out Label In/OutIF Vrf Name 
172.16.1.0/24 1027/NULL -/- vpna 
1.1.5.0/24 1030/NULL 二 vypna 





FEC In/Out Label In/OutIF Vrf Name 


10.1.2.2/32 NULL/3 -/GE0/0/1 

10.1.2.2/32 1024/3 -/GE0/0/1 
10.1.3.3/32 NULL/1024 -/GEO/0/1 

10.1.3.3/32 1025/1024 -/GEO/0/1 

10.1.4.4/32 NULL/1025 -GEOQ/0/1 

10.1.4.4/32 1026/1025 A 1 

10.1.1.1/32 3/NULL 


由 上 面 的 输出 信息 可 知 ， pt 要 将 数据 转发 给 10.1.4.4， 需 要 再 压 入 公 网 标签 1025， 
然后 通过 公 网 的 LSP 将 数据 流转 发 到 PE2。 也 就 是 说 ， 当 数据 流 进 入 PE1 时 ， 分 别 压 入 
了 一 个 私 网 标签 1029 和 一 个 公 网 标签 1025， 然 后 转发 给 Pl 路 由 器 。 

第 3 步 : 当 P1 路 由 器 接收 到 该 数据 流 后 ,根据 数据 包 的 公 网 标签 信息 进行 转发 ， 直 
接 根据 标签 转发 表 进 行 转发 ， 由 下 面 的 输出 可 以 知道 ，P1 路 由 器 接收 到 带 有 标签 值 为 
1025 的 报 文 时 ， 直 接 将 标签 交换 成 出 标签 1025， 然 后 从 GE0/0/1 转发 给 下 一 跳 P2 路 由 
器 ， 如 下 输出 所 示 。 

[Pl]display mpls lsp 

LSP Information: LDP LSP 


TEEGC. In/Out Label In/OutIF Vrf Name 
10.1.2.2/32 3/NULL -/- 
10.1.3.3/32 NULL/3 -/GE0/O/1 
10.1.3.3/32 1024/3 -/GEO/0/1 
10.1.4.4/32 NULL/1025 -/GEO/O/1 
10.1.4.4/32 1025/1025 -/GEO/OVI 
10.1.1.1/32 NULL/3 -/GE0/0/0 
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10.1.1,1/32 1026/3 -/GE0/0/0 

第 4 步 : 数据 流 到 达 P2 路 由 器 ， 这 时 P2 和 P1 的 处 理 方式 相同 ， 根据 P2 的 标签 转 
发 表 ( 如 下 表 所 示 ) 的 信息 ， 此 时 P2 将 数据 包 携 带 公 网 标签 1025 进行 弹出 后 再 转发 至 
PE2， 也 就 是 数据 包 到 达 PE2 时 只 剩 下 一 层 私 网 标签 ， 如 下 输出 所 示 。 

[P2]display mpls lsp . | . 


~---~-~--~~------~----~-~---------------~---~--~-~---~----~-~----~~----~-----~---~- ~----~-~------~---------~------~-~~------~-------~ 


REE 


FEC In/Out Label ”In/Out IF Vrf Name 
10.1.3.3/32 3/NULL Wy 

10.1222732 NULL/3 -/GE0/0/0 

10.1.2.2/32 1024/3 -/GE0/0/0 

10.1.4.4/32 NULL/3 -/GEO0/0/1 

10.1.4.4/32 10254 -GEOON 

10.1.1.1/32 NULL/1026 -/GE0/0/0 

10.1.1.1/32 1026/1026  -/GE0/0/0 


第 5 步 : 只 带 有 私 网 标签 信 息 的 数据 包 到 达 PE2。PE2 标签 转发 表 (如 下 表 所 示 ) 
显示 该 FEC 的 出 标签 为 空 所 以 在 完成 标签 移 除 操作 后 ， 再 以 IP 转发 的 方式 将 他 数据 
包 转 发 至 CE2， 如 下 输出 所 示 。 


[PE2]display mpls lsp 

LSP Information: BGP LSP 
FEC In/Out Label 1 正 Virf Name 
1.1.6.0/24 1029/NULL 


以 上 就 是 通过 MPLS VPN 传递 用 户 业务 数据 流 的 整个 过 程 ， 可 以 发 现 ， 对 于 入 站 
PE1 来 说 ， 在 接收 到 用 户 的 IP 业务 流量 时 ， 需 要 完成 压 入 双 层 标签 的 操作 ;对 于 出 站 
PE2 来 说 , 需要 将 标签 从 数据 包 中 移 除 , 然后 以 IP 转发 的 方式 将 流量 转发 给 用 户 的 CE2 
设备 ， 而 对 于 骨干 网 中 的 P 路 由 器 来 说 ， 只 需要 进行 标签 的 交换 就 可 以 完成 数据 包 的 
转发 。 
8.3.6 ”常见 问题 


问题 1: PE 之 间 可 以 通过 物理 接口 来 建立 MP-BGP 邻居 吗 ? 
问题 2， 骨 干 网 内 做 路 由 聚合 会 对 MPLS VPN 产生 影响 ? 
问题 3，PE 上 的 环 回 口 一 定 要 是 32 位 的 掩 码 吗 ? 


8.3.7 PE-CE 之 间 的 路 由 协议 


静态 路 由 

在 PE-CE 之 间 使 用 静态 路 由 是 最 简单 的 做 法 ， 但 是 静态 路 由 具有 以 下 两 个 缺点 。 

。 不 能 自动 适应 拓扑 的 变化 。 

。 如果 VPN 客户 路 由 多 ， 配 置 比较 繁杂 。 

所 以 建议 在 PE-CE 之 间 拓 扑 比 较 简 单 和 VPN 客户 路 由 不 多 的 场景 下 使 用 静态 路 由 。 
要 为 VPN 实例 设置 静态 路 由 ， 必 须 在 静态 路 由 后 面 关联 上 相应 的 VPN 实例 。 

如 图 8-49 所 示 ，PE-CE 之 间 可 以 使 用 静态 路 由 ， 这 里 以 CE1 和 PE1 的 配置 为 例 说 
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10.1.10.0/24 10.1.20.0/24 





图 8-49 PE-CE 运行 静态 路 由 协议 


[CEI]ip route-static 10.1.20.0 24 172.16.1.1 。 # 访 问 Site2 的 下 一 跳 为 PE1 

[PE1]ip route-static vpn-instance vpna 10.1.10.0 24 172.16.1.2“# 在 VPN 实例 的 路 由 表 中 配置 静态 路 由 ， 下 一 跳 为 CE1 

要 想 其 他 PE 学 习 到 该 静态 路 由 ， 需 要 在 VPN 实例 中 将 其 引入 到 BGP 中 ， 从 而 形 
成 VPNv4 路 由 ， 再 通过 MP-BGP 通告 给 其 他 PE， 如 下 配置 ， 在 PE1 上 将 VPN 实例 中 
的 静态 路 由 引入 到 MP-BGP 中 。 

Bgp 100 

# 

ipv4-family vpn-instance vpna 

import-route static 

RIP 

RIP 是 一 种 简单 的 距离 矢量 路 由 协议 ， 工 作 机 制 和 配置 都 比较 简单 。 但 由 于 跳 数 上 
的 限制 ， 而 且 收敛 速度 比较 慢 ， 导 致 该 路 由 协议 不 能 用 于 大 规模 网 络 。 目 前 ， 在 一 些小 
型 分 支 企 业 利用 其 来 完成 简单 的 路 由 功能 。 

在 PE 上 为 客户 的 VPN 实例 配置 RIP 时 ， 注 意 一 个 RIP 进程 只 能 属于 一 个 VPN 实 
例 。 如 果 在 启动 RIP 进程 时 不 绑 定 到 VPN 实例 ， 则 该 进程 属于 公 网 进程 。 属 于 公 网 的 
RIP 进程 是 不 需要 绑 定 VPN 实例 的 。 

如 图 8-50 所 示 ， 在 PE-CE 之 间 使 用 RIP 来 交换 私 网 路 由 信息 ， 这 里 以 CE1 和 PEl 
的 配置 为 例 说 明 具 体 的 部 署 方 法 。 


AS 100 
> 


10.1.10.0/24 10.1.20.0/24 





图 8-30 PE-CE 运行 RIP 路 由 协议 


CE1 配置 : 
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fip 1 
undo summary 
Version 2 
network 10.0.0.0 
network 172.16.0.0 
# 
PE1 配置 : 
# 
rip 1 vpn-instance vpna # 配 置 RIP 进程 并 关联 至 VPN 实例 
undo summary . 
Version 2 
network 172.16.0.0 
import-route bgp 
# 
bgp 100 
# 
ipv4-family vpn-instance vpna 
import-route rip 1 # 将 VPN 实例 中 的 RIP 路 由 引入 至 MP-BGP 


说 明 : 

在 入 站 PE 处 ， 将 RIP 路 由 引入 至 MP-BGP 时 ，Metric 值 ( 跳 数 ) 会 被 复制 到 BGP 路 由 
的 MED 值 中 ， 在 另 一 侧 的 出 站 PE 路 由 器 上 ， 在 将 该 BGP 路 由 引入 到 VPN 实例 时 ， 直 接 使 
用 MED 值 作 为 RIP 路 由 的 跳 数 。 也 就 是 说 ，BGP 通过 MED 携带 RIP 路 由 的 跳 数 到 达 另 一 例 
的 PE 时 ， 再 通过 MED 值 还 原 出 真实 的 RIP 跳 数 。 这 样 做 的 目的 就 是 从 用 户 的 角度 看 ， 中 
间 的 MPLS 骨干 网 是 透明 的 。 如 图 8-50 所 示 ， 在 Site1 中 CE1 有 个 直 连 网 络 10.1.10.0/24 宣 
告 到 RIP 进程 后 ， 可 以 观察 到 PE1 的 VPN 实例 路 由 表 中 这 条 路 由 的 Metric 是 一 跳 ， 如 下 输 
出 所 示 。 


[PE1]display ip routing-table vpn-instance vpna 
Route Flags: R-relay, D-download to fib 


Routing Tables: vpna 
Destinations : 9 Routes :9 


Destination/Mask Proto Pre Cost Flags NextHop Interface 
1.1.5.0/24 RIP 100 1 D1721612 GigabitEthemet0/0/0 
L160/24 iBGP 255 1 RD 10.1.4.4 GigabitEthernet0/0/1 
10.1.10.0/24 RIP 100 1 D 172.16.1.2 GigabitEthernet0/0/0 


[PE1]display bgp vpnv4 all routing-table 


Network NextHop MED LocPrf PrefVal Path/Ogn 
*> 1.1.5.0/24 0.0.0.0 1 0 2 
qi 1,1.6.0/24 10,1.4.4 1 100 0 2 
*> 10.1.10.0/24 0.0.0.0 1 0 

# 这 里 MED 值 是 来 自 于 RIP 路 由 的 跳 数 
在 Site2 中 的 CE2 上 观察 路 由 ， 如 下 输出 所 示 。 
[CE2]display ip routing-table 


Route Flags; R-relay, D-download to fib 


569 ww 


| HCIE 路 由 交换 学 习 指 南 | 


Destinations : 14 Routes : 14 
Destination/Mask Proto Pre Cost Flags NextHop Interface 
1.1.5.0/24 RIP 100 1 D 172.16.2.1 GigabitEthemet0/0/0 
1.1.6.0/24 Direct 0 0 D 1.1.6.6 LoopBack0 
1.1.6.6/32 ”Direct 0 0 D 127.0.0.1 LoopBack0 
1.1.6.255/32 Direct 0 0 D 127.0.0.1 LoopBack0 
10.1.10.0/24 RIP 100 1 D 172.16.2.1 GigabitEthernet0/0/0 
OSPF 
基础 配置 


OSPF 协议 是 PE 和 CE 之 间 路 由 协议 的 另 一 种 选择 ， 如 果 要 将 VPN 用 户 路 由 传递 
到 其 他 PE, 那么 需要 在 PE 上 把 OSPF 路 由 引入 到 MP-BGP, 在 远 端 PE 上 需要 将 MP-BGP 
的 VPNv4 路 由 引入 到 OSPF。 
在 远 端 站 点 的 PE 上 将 OSPF 路 由 导出 到 VPN 实例 后 ， 这 些 路 由 变 成 了 OSPF 外 部 
路 由 ， 导 致 路 由 的 优先 级 变 低 ， 这 样 会 带 来 以 下 两 个 问题 。 
。 ”如 果 此 时 客户 站 点 之 间 拥 有 备份 链 路 (后 门 链 路 )， 如 图 8-51 所 示 ， 这 会 导致 
远 端 站 点 优先 选择 后 门 链 路 的 路 由 ， 而 不 是 穿越 MPLS VPN 骨干 的 路 由 。 这 不 
符合 用 户 起 初 的 期 望 。 
。 另外 ,从 网 络 设计 角度 考虑 , 这 种 情况 下 使 得 同 个 VPN 用 户 的 不 同 站 点 被 MPLS 
VPN 上 骨干 分 割 了 。 
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图 8-51 后门 链 路 


为 避免 在 远 端 PE 上 将 引入 的 OSPF 中 的 路 由 变 成 外 部 路 由 ，MPLS VPN 采取 了 相 
应 的 解决 办 法 。 在 远 端 PE 上 将 MP-BGP 传递 过 来 的 VPNv4 路 由 引入 到 OSPF 时 ， 以 
LSA 3 的 形式 通告 出 来 (常规 的 做 法 是 以 LSA5 的 形式 通告 出 来 ，PE 是 ASBR)， 如 
图 8-52 所 示 。 这 样 的 设计 就 让 MPLS VPN 骨干 网 看 起 来 像 一 个 OSPF 的 骨干 区 域 (PE 
成 了 ABR)。 对 于 OSPF 来 说 ， 我 们 称 之 为 超级 骨干 区 域 。 从 网 络 设计 角度 看 ， 这 就 由 
中 间 的 一 个 超级 骨干 区 域 将 多 个 站 点 的 OSPF 区 域 连接 在 了 一 起 , 从 而 形成 了 一 个 整体 。 
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图 8-52 MPLS VPN 作为 超级 骨干 区 域 


570 


和 
对 于 OSPF 来 说 ， 有 了 这 个 超级 骨干 区 域 后 ， 用 户 各 站 点 内 的 OSPF 区 域 设计 需要 
注意 以 下 几 点 。 
。 ”用 户 站 点 内 如 果 是 单 区 域 , 各 站 点 可 以 使 用 相同 或 不 同 的 区 域 , 如 图 8-53 所 示 。 
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图 8-53 ”站 点 内 OSPF 单 区 域 


e 用户 站 点 内 部 如 果 采 用 多 区 域 , 要 确保 骨干 区 域 (Area 0) 连接 在 PE 上 , 如 图 8-54 
所 示 。 

e ”如 果 用 户 站 点 内 部 采用 多 区 域 , 而 骨干 区 域 (Area 0) 没有 连接 在 PE 上 ， 如 图 
8-55 所 示 ， 那 么 会 导致 什么 问题 ? 
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4 a | 必 。 
图 8-54 站 点 内 OSPF 多 区 域 图 8-55 站 点 内 OSPF 多 区 域 
(骨干 区 域 连接 在 PE 上 ) (骨干 区 域 没 有 连接 在 PE 上 ) 


这 样 会 导致 用 户 站 点 Area 0 学 不 到 其 他 站 点 的 路 由 , 因为 PE 路 由 器 能 够 收 到 LSA3 
信息 ， 但 是 不 会 计算 出 该 路 由 ， 这 是 由 域 间 路 由 防 环 机 制 所 决定 的 。 该 机 制 描述 了 从 非 
骨干 区 域 学 到 的 LSA3 是 不 能 再 传递 给 骨干 区 域 的 ， 因 为 骨干 区 域 认为 该 LSA3 是 从 这 
里 传递 出 去 的 ， 但 是 现在 又 传递 回来 了 ， 则 认为 环 路 产生 了 。 那 如 何在 不 改变 网 络 拓扑 
的 情况 下 解决 这 个 问题 呢 ? 这 就 需要 用 到 OSPF 的 虚 链 路 ， 只 需要 利用 虚 链 路 将 PE 和 
ABR 相连 就 可 以 了 ， 如 图 8-56 所 示 。 

前 文中 提 到 过 ， 如 果 本 端 站 点 内 的 路 由 通告 到 远 端 站 点 后 变 成 了 区 域 间 路 由 ， 如 果 
这 时 用 户 的 站 点 之 间 还 有 后 门 链 路 ， 那 么 本 端 站 点 的 内 部 路 由 通过 后 门 链 路 传递 过 去 的 
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还 是 内 部 路 由 ， 而 此 时 通过 MPLS VPN 骨干 接收 到 的 路 由 是 区 域 间 路 由 ， 根 据 OSPF 的 
路 由 优先 顺序 ， 远 端 站 点 还 是 优选 后 门 链 路 的 
路 由 。 要 避免 这 种 情况 ,必须 在 PE 之 间 配 置 一 
条 特殊 的 链 路 Sham-Link ( 伪 链 路 )， 关 于 此 内 
容 后 面 再 详细 介绍 。 

用 于 OSPF 的 BGP 扩展 团体 属性 

要 想 OSPF 路 由 能 无 颖 地 穿越 MPLS VPN 


3 
| | 
骨干 网 络 ， 就 必须 使 MP-BGP 协议 携带 OSPF 上 _- Ca _ > | 
I 
| | 
| | 
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路 由 的 特征 ， 比 如 路 由 类 型 、 进 程 号 等 ， 这 些 
特征 可 以 帮助 远 端 PE 决定 向 CE 端 通告 什么 类 
型 的 LSA， 这 样 就 使 得 OSPF 路 由 可 以 在 远 端 


PE 处 得 以 完全 重建 。 ga 站 ssiitse 
MPLS VPN 体系 结构 中 使 用 BGP 的 扩展 团 CR 
体 属 性 来 传递 OSPF 路 由 的 特征 , 这 些 特 征 包括 ， 图 8-56 使 用 虚 链 路 解决 分 制 骨干 区 域 的 问 是 
e 路 由 类 型 ; 
。 区域 号 ; 
。 OSPF 路 由 器 ID; 
ee 域 ID; 


。 OSPF 外 部 路 由 的 度量 值 类 型 1 或 2。 

路 由 类 型 使 用 的 是 LSA 的 类 型 值 ， 如 果 路 由 类 型 是 LSA 1、LSA 2、LSA 3， 那 么 远 
端 PE 会 以 区 域 间 路 由 (LSA 3) 的 形式 通告 给 OSPF 区 域 。 

OSPF 进程 的 域 ID 包含 在 此 进程 生成 的 路 由 中 ， 在 将 OSPF 路 由 引入 到 BGP 中 时 ， 
域 ID 被 附加 到 VPNv4 路 由 上 ， 作 为 BGP 的 扩展 团体 属性 传递 。 

每 个 OSPF 进程 可 以 配置 两 个 域 ID， 不 同 进 程 的 域 ID 相互 没有 影响 。PE 上 不 同 
VPN 的 OSPF 进程 域 ID 配置 没有 限制 。 但 同一 VPN 的 所 有 OSPF 进程 应 配置 相同 的 域 
ID， 以 保证 路 由 发 布 的 正确 性 。 

域 ID 用 来 告诉 远 端 PE 路 由 器 , 通告 的 路 由 是 否 是 一 条 外 部 OSPF 路 由 。 在 远 端 PE 
路 由 器 上 通过 比较 VPN 路 由 中 的 域 ID 和 本 端的 域 ID 值 是 否 一 样 ， 如 果 是 一 样 ， 则 以 
内 部 路 由 引入 到 OSPF 区 域 ， 和 否则 以 OSPF 外 部 路 由 引入 到 OSPF 区 域 。 域 ID 可 以 通过 
命令 修改 ， 华 为 VRP 系统 缺 省 情况 下 ， 域 ID 为 0。 

如 下 输出 显示 了 PE 上 一 条 VPNv4 路 由 (1.1.5.0/24) 的 路 由 更 新 ， 以 及 为 该 路 由 所 
关联 的 BGP 扩展 属性 。 

[PE1]display bgp vpnv4 all routing-table 1.1.5.0 24 


BGP local router ID : 10.1.12.1 
Local AS number : 100 


Total routes of Route Distinguisher(100:1): 1 

BGP routing table entry information of 1.1.5.0/24: 
Imported route. 

Label information (Received/Applied): NULL/1029 
From: 0.0.0.0 (0.0.0.0) 
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Route Duration: 00h0OSmi8s 

Direct Out-interface: GigabitEthernet0/0/0 

Original nexthop: 172.16.1.2 

Qos information : Ox0 

Ext-Community:RT <1 : 1>, OSPF DOMAIN ID <0.0.0.0 : 0>, OSPF RT <0.0.0.0 : 1 : 0>, OSPF ROUTER ID 
<172.16.1.1 : 0> 

AS-path Nil, origin incomplete, MED 2, pref-val 0, valid, local, best, select, pre 255 

关于 上 面 的 输出 内 容 ，BGP 扩展 团体 属性 的 解释 如 下 。 

RT<1:1>: 这 个 值 表示 VPN 路 由 的 RT 值 , 注意 这 里 不 是 表示 路 由 类 型 (route-type)， 
而 是 vpn-target。 

OSPF DOMAIN ID<0.0.0.0:0>: 冒号 前 面部 分 0.0.0.0 表示 域 ID 值 , 后 面部 分 表示 可 
选项 ， 默 认为 0。 

OSPF RT<0.0.0.0:1:0>: 这 个 值 表示 OSPF 路 由 类 型 ， 共 分 成 3 部 分 ， 第 1 部 分 表示 
区 域 号 ， 第 2 部 分 表示 路 由 类 型 ， 第 3 部 分 表示 外 部 路 由 的 度量 值 类 型 1 或 2。 后 两 个 
部 分 sse 取 值 及 其 解释 如 下 。 

:1:0 or :2:0 表示 内 部 路 由 (LSA1 或 LSA 2)。 

。 :3:0 表示 区 域 间 路 由 (LSA3)。 

e。 :5:0 or 5:1 表示 外 部 路 由 (LSA5)， 度 量 值 类 型 分 别 是 1 或 2。 

e。 :7:0 or 7:1 表示 外 部 路 由 (LSA7)， 度 量 值 类 型 分 别 是 1 或 2。 

e :129:0 表示 sham-link 端点 。 

OSPF Router-ID<172.16.1.1:0> 表示 发 送 该 路 由 的 VPN 实例 的 Router-ID 。 

OSPF 路 由 穿越 MPLS VPN 骨干 网 的 Metric 传递 

在 PE 上 将 OSPF 内 部 路 由 或 外 部 路 由 引入 到 BGP 后 , 使 用 OSPF 路 由 的 Cost 值 来 
设置 BGP 路 由 的 MED 值 。 当 远 端 的 PE 把 BGP 路 由 引入 到 OSPF 区 域 时 ， 又 将 MED 
值 复制 回来 给 OSPF 路 由 的 Cost 值 ， 具 体 过 程 分 为 以 下 几 种 情况 。 

。 两 端 PE 的 域 ID 设置 相同 的 情况 ，OSPF 内 部 和 外 部 路 由 的 Cost 传递 的 情况 如 


图 8-57 所 示 。 
EE I ES EE EE Mh 
| MP-BGP 路 由 : | 
OSPF 内 部 或 外 部 路 由 : OSPF 内 部 或 外 部 路 由 : 
40.1.1.0/24 Cost=1 | ni/ MALE | 40.1.1.0/24 Cost=2 
1 | 


a G0/0/1 G0/0/0 





CEIl . PEl F PE2| CE2 


图 8-57 ”OSPF 的 Cost 传递 过 程 


如 图 8-57 所 示 ，PE1 收 到 CE1 的 路 由 后 ， 因 为 要 累加 入 口 链 路 的 开销 ， 所 以 引入 
到 BGP 后 的 MED 值 为 2。 远 端的 PE2 将 BGP 路 由 引入 到 OSPF 区 域 时 ， 直 接 用 MED 
值 代 替 OSPF 路 由 的 开销 值 。 这 种 情况 下 ， 由 于 PE1 和 PE2 的 域 ID 相同 ， 所 以 在 PE2 
上 会 根据 路 由 的 类 型 来 产生 相应 的 LSA 给 CE2。 
。 两 端 PE 的 域 ID 设置 不 相同 的 情况 ，OSPF 内 部 和 外 部 路 由 的 Cost 传递 的 情况 
如 图 8-58 所 示 。 
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OSPF 内 部 或 外 部 路 由 : 


I 
| MP-BGP 路 由 : 
40.1.1.0/24 Cost=l | 


| 
| 
可 OSPF 外 部 路 由 : 
A OA | 40.1.1.0/24 Cost=2 
人 


GO/0/1 G0/0/0 Edt 
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图 8-58 ”OSPF 的 Cost 传递 过 程 


如 图 8-58 所 示 ， 因 为 PE1 和 PE2 的 域 ID 不同 ， 所 以 在 PE2 上 把 BGP 路 由 引入 到 
OSPF 区 域 的 路 由 都 是 OSPF 外 部 路 由 ， 而 Cost 值 仍 然 是 复制 BGP 路 由 的 MED 值 。 

以 上 两 种 情况 中 ， 如 果 BGP 路 由 中 没有 MED 值 ， 则 OSPF 外 部 路 由 使 用 默认 的 开 
销 值 。 

说 明 : 

华为 设备 的 DOMAIN-ID 值 默 认为 0， 它 和 VPN 实例 中 的 OSPF 进程 ID 大 小 没有 关系 。 

防止 OSPF 站 点 间 的 路 由 环 路 

在 对 网 络 健壮 性 要 求 较 高 的 应 用 中 , 可 以 采用 CE 双 归 属 方式 组 网 , 如 图 8-59 所 示 。 





MPLS VPN Backbone 


图 8-59 ”CE 双 归 属 


但 是 在 CE 双 归 属 场景 中 ， 用 户 的 VPN 路 由 有 可 能 通过 多 个 PE 传播 到 公 网 ， 导 致 
潜在 路 由 环 路 的 产生 ， 下 面 是 产生 环 路 的 案例 。 

如 图 8-60 所 示 ，PE1、PE2、PE3 都 已 建立 BGP 连接 ，PE 和 CE 之 间 使 用 OSPF 路 
由 协议 。 这 时 假设 由 于 链 路 质量 问题 , PE1 先 接 收 到 来 自 PE3 的 VPNv4 路 由 (2.2.2.2/32 )， 
PE1 会 将 BGP 路 由 引入 到 左 侧 站 点 的 OSPF 区 域 ，PE2 从 OSPF 中 学 习 到 该 路 由 ， 下 一 
跳 指 向 CE1。 然 后 又 在 PE 上 做 了 双向 引入 ， 所 以 PE2 会 将 该 OSPF 路 由 引入 到 BGP 形 
成 VPNv4 路 由 ， 同 时 将 该 路 由 通告 给 PE1。 这 时 ，PE1 从 PE2 和 PE3 接收 到 了 同一 条 
VPN 路 由 , 在 链 路 开销 相等 的 情况 下 , 假设 PE2 的 Router-ID 小 于 PE3 的 Router-ID,， 那 
么 PE1 会 优选 PE2 为 下 一 跳 ， 环 路 就 产生 了 。 

为 避免 潜在 的 路 由 环 路 问题 ， 需 要 使 用 到 OSPF 报 文 头 部 选项 中 的 DN 比特 位 。 

DN 比特 位 于 LSA 3/LSA SLSA7 中 的 Option 字段 , 用 于 表明 路 由 是 由 PE 向 CE 方 
向 传递 的 ， 也 就 是 说 一 条 路 由 如 果 由 PE 发 布 给 CE， 这 条 路 由 的 DN 比特 位 就 会 被 置 位 
为 1。 同 一 用 户 站 点 的 其 他 PE 在 收 到 带 有 置 了 DN 比特 位 的 LSA 3 时 ， 不 会 进行 SPF 
路 由 计算 ， 更 不 会 将 其 引入 到 BGP 中 。 如 图 8-61 所 示 ， 显 示 了 一 台 PE 路 由 器 在 接收 到 
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置 了 DN 比特 位 的 LSA 时 ， 不 会 再 将 其 通告 进 BGP 中 。 






2.2.2.2/32 


8-60 ”CE 双 归 属 环 路 案例 


路 由 类 型 LSA3 


Down bit=1l 


MPLS VPN Backbone 


图 8-61 DN 位 防 环 


按照 RFC2547 BGP/MPLS VPNs 中 的 定义 ，DN 比特 位 只 会 出 现在 LSA 3， 但 是 华 
为 在 LSA5 和 LSA7 中 也 设置 了 DN 比特 位 。 如 下 输出 所 示 ， 显 示 了 LSA 3 中 是 否 设置 


了 DN 比特 位 的 方法 。 
[CE]display ospf 1 lsdb summary 
OSPF Process 1 with Router ID 10.1.35.2 
Area:0.0.0.0 
Link State Database 
Type : Sum-Net 
Lsid : 10.4.4.4 
Adv rtr : 不 3 
Lsage 1 39 
Len + 28 
Options :EE DN 
Seq# :80000001 
chksum : 0x5a56 
Net mask : 255.255.255.255 
‘TosOmetc  : 2 
Priority : Medium 


在 某 些 特定 场景 下 ，DN 位 也 无 法 避免 上 述 的 环 路 问题 ， 如 图 8-62 所 示 的 场景 ，CE 
双 归 属 ，CE1 连接 PE1 的 链 路 在 Area 0 中 , CE1 连接 PE2 的 链 路 放 在 Area 1 中 ; 当 PEI1 
以 LSA3 的 形式 向 CE1 发 送 OSPF 路 由 时 ， 这 时 DN 比特 置 位 ， 由 于 CE 是 ABR， 当 这 
条 LSA 3 经 过 CE 再 传递 到 Area 1 时 ，DN 比特 位 置 为 0， 当 PE2 接收 后 ， 仍 然 会 计算 
该 路 由 ， 从 而 造成 环 路 隐患 。 
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MPLS VPN Backbone 
图 8-62 ”DN 位 防 环 分 析 


总 省 : 
如 果 这 时 PE1 通告 出 来 的 是 条 外 部 LSA (LSA 5), 在 这 种 情况 下 会 存在 环 路 的 可 能 吗 ? 


有 些 场景 下 需要 关闭 DN 比特 位 的 功能 ， 否 则 会 导致 路 由 无 法 学 习 ， 比 如 下 面 这 两 
种 情况 。 
。 ”OSPF 应 用 在 VPN-OptionA 场景 时 ,本 端 ASBR 路 由 器 把 BGP 路 由 引入 到 OSPF 
区 域 中 ， 以 置 了 DN 位 的 LSA3， 在 发 送 到 对 端 ASBR 时 ， 该 对 端 ASBR 检查 
到 DN 置 位 了 ， 所 以 无 法 把 OSPF 路 由 引入 到 BGP 中 。 
e 当 PE 设备 连接 MCE 设备 场景 时 ,MCE 设备 需要 计算 PE 设备 发 布 的 某 些 路 由 。 
如 果 PE 设备 发 送 的 LSA 的 DN 比特 有 和 置 位 , 会 导致 MCE 设备 无 法 计算 路 由 。 
华为 VRP 系统 禁用 DN 置 位 的 命令 是 : dn-bit-set disable { summary | ase | nssa } 。 
参数 介绍 : 
summary: 指定 不 设置 Summary LSA 的 DN 位 ; 
ase: 指定 不 设置 AS-external LSA 的 DN 位 ; 
nssa: 指定 不 设置 NSSA LSA 的 DN 位 。 
但 是 在 实际 组 网 中 ， 使 用 dn-bit-set disable 命令 用 来 禁止 设置 OSPF LSA 的 DN 位， 
可 能 会 产生 路 由 环 路 。 如 果 设 置 了 ase 参数 或 nssa 参数, 即 对 于 AS-external-LSA 或 NSSA 
LSA， 这 两 种 LSA 也 可 以 通过 Route-tag 命令 配置 相同 的 Tag 值 来 防止 路 由 环 路 。 所 以 ， 
dn-bit-set disable 命令 只 推荐 在 上 面 描 述 的 两 种 场景 中 使 用 。 
配置 dn-bit-set disable ase 命令 后 ， 即 使 Type7LSA 设置 了 DN 位， 由 Type7LSA 转 
化 的 Type5 LSA 也 不 会 随 之 设置 DN 位 。 
说 明 : 
e ”dn-bit-set disable 命令 仅 支 持 在 OSPF 私 网 进程 下 配置 ， 并且 只 在 PE 上 生效 ， 
e ”执行 dn-bit-check disable 命令 可 以 控制 对 端 PE 路 由 器 接收 OSPF 路 由 是 否 检查 DN 位 。 


按照 IETF 的 标准 定义 , 在 CE 双 归 属 环境 中 , 通过 在 LSA 3 中 设置 DN 位 来 避免 潜 
在 的 路 由 环 路 ， 在 华为 设备 中 ，LSA 5 和 LSA7 也 可 以 通过 另外 的 一 种 方式 来 阻止 路 由 
环 路 。 除 了 使 用 DN 来 防止 潜在 的 环 路 之 外 ， 这 两 种 LSA (LSA 5 和 LSA 7) 也 可 以 使 
用 Route-tag 来 防 环 。 如 果 一 台 PE 路 由 器 设置 了 Route-tag， 当 它 将 OSPF 外 部 路 由 发 布 
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给 CE 之 前 会 使 路 由 带 上 Route-tag。 如 果 在 同一 站 点 的 另 一 台 PE 路 由 器 发 现在 接收 到 
的 OSPF 外 部 路 由 中 的 Route-tag 跟 本 端 配置 的 一 样 , 那么 就 会 忽略 该 路 由 。 在 华为 VRP 
系统 中 可 以 通过 Route-tag 命令 来 设置 路 由 域 标 记 ， 缺 省 情况 下 ，Tag 值 可 以 根据 BGP 
的 AS 号 计算 得 到 (默认 D000+AS 号 )。 

如 图 8-63 所 示 的 场景 中 ，PE1 和 PE2 为 该 用 户 站 点 设置 的 Route-tag 都 是 100， 当 
PE1 将 OSPF 外 部 路 由 通告 出 来 时 携带 了 该 标记 ， 在 PE2 接收 到 该 OSPF 外 部 路 由 后 ， 
通过 比较 Route-tag， 发 现 跟 本 端 设 置 的 一 样 ， 就 不 会 再 将 该 路 由 引入 到 BGP 中 ， 以 避 






免 环 路 隐患 。 
OSPF 外 部 路 由 : 
Route-tag=100 
Route-tag=100 
MPLS VPN Backbone 
图 8-63 Route-tag 防 环 
VPN 客户 的 后 门 链 路 


通过 MPLS VPN 骨干 网 将 运行 OSPF 协议 的 用 户 站 点 连接 起 来 后 , 用 户 的 业务 通过 
骨干 网 进行 传送 。 为 增强 网 络 的 健壮 性 , 现在 很 多 大 型 的 MPLS VPN 场景 中 都 会 部 署 备 
份 路 径 ， 这 些 备份 路 径 我 们 称 之 为 后 门 链 路 。 通 过 后 门 链 路 将 各 站 点 的 OSPF 区 域 打通 
后 ， 所 有 的 LSA 将 会 保持 原样 从 一 个 站 点 传递 到 另 一 个 站 点 ， 也 就 是 说 ，OSPF 内 部 路 
由 (LSA 1 和 LSA 2) 通过 后 门 链 路 传递 到 远 端 的 站 点 还 是 内 部 路 由 ， 而 内 部 路 由 穿 过 
MPLS VPN 骨干 传递 过 去 后 变 成 了 区 域 间 路 由 (LSA 3)， 这 就 导致 两 个 站 点 之 间 永 远 选 
择 的 是 后 门 链 路 ,而 用 户 期 望 站 点 之 间 的 数据 流 默 认 以 MPLS VPN 骨干 为 主 路 径 ， 后 门 
链 路 作 备 用 路 径 。 

如 图 8-64 所 示 ， 显 示 了 用 户 站 点 之 间 拥 有 后 门 链 路 的 简单 的 网 络 。 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 





LSA1, LSA2 





图 8-64 拥有 后 门 链 路 的 MPLS VPN 网 络 
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如 图 8-64 所 示 , 用 户 各 站 点 都 配置 在 相同 的 区 域 中 ， 后 门 链 路 使 得 这 些 区 域 连接 在 
一 起 , 从 而 形成 了 一 个 区 域 。 在 右 侧 站 点 中 接收 到 通过 MPLS VPN 骨干 来 的 是 LSA3( 假 
设 PE1 和 PE2 的 域 ID 相同 )， 而 另外 一 边 接收 到 通过 后 门 链 路 来 的 是 LSA1 和 LSA 2， 
这 时 CE2 会 优先 选择 来 自 后 门 链 路 的 内 部 路 由 ， 而 忽略 来 自 MPLS VPN 骨干 的 区 域 间 
路 由 ， 这 就 意味 着 ， 站 点 之 间 的 数据 流 需 要 经 过 后 门 链 路 ， 当 后 门 链 路 不 可 用 后 数据 流 
才 切 换 到 MPLS VPN 骨干 网 络 。 这 种 情况 导致 的 另 一 个 问题 就 是 ，PE2 是 不 会 将 从 PE1 
接收 到 的 BGP 路 由 安装 至 VRF 的 路 由 表 中 , 因为 此 时 VRF 的 路 由 表 里 面 已 经 通过 CE2 
学 习 到 了 OSPF 路 由 ， 而 OSPF 的 优先 级 要 高 于 BGP 路 由 。 

为 解决 这 个 问题 ,引入 了 一 种 OSPF 的 特殊 链 路 一 一 sham-link。sham-link 就 像 一 条 
正常 的 OSPF 链 路 一 样 ,有 自己 的 接口 , 可 以 在 其 上 建立 OSPF 邻居 关系 , 能 够 传递 OSPF 
中 所 有 报 文 , 同步 LSDB 等 , 但 是 不 能 传递 数据 报 文 。 sham-link 可 以 被 视 为 一 个 无 编号 、 
点 到 点 的 链 路 ， 它 也 会 参与 SPF 的 路 由 计算 。 当 LSA 在 伪装 链 路 中 进行 泛 洪 时 ， 所 有 
的 OSPF 路 由 类 型 都 不 会 改变 ， 不 会 转换 成 LSA 3 或 者 LSA 5 的 类 型 。 如 果 sham-link 
断 掉 ， 那 么 又 恢复 成 前 面 所 讲 的 机 制 。 但 LSA 在 sham-link 是 不 会 周期 性 地 泛 洪 的 。 

并 不 是 所 有 Site 之 间 都 需要 配置 sham-link, OSPF 伪 连 接 仅 应 用 在 属于 同一 个 OSPF 
区 域 的 两 个 Site 之 间 存 在 后 门 链 路 的 情况 。 如 果 Site 之 间 没 有 后 门 链 路 ， 则 不 需要 配置 
OSPF 伪 连 接 ; 如果 Site 不 属于 同一 区 域 的 情况 ， 则 不 需要 配置 OSPF 伪 链 路 。 

sham-link 建立 在 两 台 PE 路 由 器 之 间 ， 要 求 两 台 PE 路 由 器 分 别 在 对 应 的 VRF 中 建 
立 一 个 32 位 掩 码 的 环 回 接口 来 充当 sham-link 的 端点 ,并且 需要 将 这 个 地 址 宣告 进 iBGP， 
BGP 使 用 Route-type 值 129 的 扩展 团体 属性 将 sham-link 的 端点 地 址 通告 给 其 他 PE。 以 
下 是 sham-link 的 配置 。 

eh PE1 

# 

Interface LoopBack! 

Ip binding vpn-instance VPN-A 

Jp address 1.1.1.1 255.255.255.255 

ee 100 

ipv4-family vpn-instance VPN-A 
import-route direct 

i 2 vpn-instance VPN-A 


sham-link 1.1.1.1 3.3.3.3 
国 
Sysname PE2 
和 
Interface LoopBack1 
Ip binding vpn-instance VPN-A 
Ip address 3.3.3.3 255.255.255.255 
蕉 
bgp 100 


Ipv4-family vpn-instance VPN-A 
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network 3.3.3.3 255.255.255.255 
import-route direct 

# 

ospf 2vpn-instance VPN-A 


area 0.0.0.0 
sham-link 3.3.3.3 1.1.1.1 


在 区 域 视图 下 使 用 sham-link 命令 建立 sham-link， 后 面 加 上 源 和 目标 端点 环 回 口 地 
址 。 在 sham-link 建 好 后 ,注意 ， 不 能 把 sham-link 的 端点 地 址 宣告 进 VRF 下 的 OSPF 进 
程 ， 否 则 会 导致 sham-link 抖动 。 具 体 原因 是 ，PE 如 果 同 时 通过 iBGP 和 OSPF 学 习 到 
端点 地 址 的 路 由 ， 由 于 OSPF 路 由 的 优先 级 高 于 BGP 路 由 , 所 以 PE 会 选择 OSPF 路 由 ， 
导致 sham-link 中 断 ， 因 为 建立 sham-link 用 的 路 由 必须 是 BGP 路 由 。 

sham-link 的 Cost 默认 为 1， 也 通过 设置 sham-link 的 开销 值 来 保证 数据 流 走 的 是 上 骨 
干 网 链 路 而 非 后 门 链 路 ， 如 下 输出 所 示 ， 查 看 sham-link 信息 的 方法 。 


[PE1]display ospf sham-link 


OSPF Process 2 with Router ID 4.4.4.4 


ShamLink: | 
Area NeighborId Source-IP Destination-IP State Cost 
0.0.0.0 je nse, Lil .3 P-2-P 1 


如 上 输出 显示 出 sham-link 的 邻居 ID 及 源 和 目标 端点 地 址 , sham-link 作为 P2P 链 路 
特性 运行 ， 默 认 开 销 是 1， 在 数据 库 也 可 以 观察 到 相关 信息 ， 如 下 输出 信 息 所 示 。 


RE ospf 2 lsdb router 4.4.4.4 


OSPF Plo 2 with Router ID 4.4.4.4 
Area: 0.0.0.0 
Link State Database 
Type : Router 


4LInKTD :6.5.5.5 

Data :0.127.128.1 # 无 编号 接口 

Link Type: P-2-P 

Metric :1 

另外 需要 注意 的 是 ， 因 为 一 台 PE 路 由 器 会 优选 通过 sham-link 收 到 的 OSPF 路 由 ， 
而 不 会 选择 BGP 传递 过 来 的 路 由 , 在 PE 上 又 做 了 OSPF 和 BGP 双向 引入 , 这 时 会 不 会 
导致 通过 sham-link 学 习 到 的 路 由 又 再 引入 回 给 BGP 呢 ? 答案 是 不 会 的 ， 因 为 对 端 PE 
已 经 通过 BGP 将 路 由 通告 过 来 ， 再 将 这 些 路 由 通告 回去 给 对 端 PE 是 没 必要 的 。 

至 此 ， 总 结 一 下 在 PE 上 部 署 sham-link 的 几 点 注意 事项 。 

e。 用 于 建立 sham-link 用 的 端点 地 址 的 掩 码 必须 是 32 位 的 。 

。 必须 将 端点 地 址 宣告 进 BGP， 不 能 宣告 到 VPN 实例 的 OSPF 中 。 

e。 用 于 sham-link 端点 的 接口 必须 属于 特定 的 VRF。 
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IS-IS 
PE-CE 之 间 的 路 由 协议 也 可 以 使 用 IS-IS。IS-IS 和 OSPF 一样， 也 是 一 种 链 路 状态 
协议 ， 广 泛 应 用 于 运营 商 网 络 。 但 是 和 OSPF 不 一 样 的 是 ，IS-IS 直接 工作 在 二 层 ， 而 不 
是 了 瑟 层 。 关 于 IS-IS 的 原理 细节 可 以 参考 相关 RFC 的 书籍 ， 这 里 不 再 作 详 细 介 绍 。 
和 OSPF 一 样 ，IS-IS 可 以 将 一 个 路 由 域 划分 出 若干 个 区 域 ， 这 些 区 域 类 型 上 有 LI1 
和 LL2 两 种 ，L1 为 普通 区 域 ，L2 为 骨干 区 域 ,， 通过 L2 区 域 可 将 所 有 L1 区 域 连接 起 来 。 
IS-IS 路 由 器 的 角色 有 Ll1、L2、L1/2。L1 路 由 器 位 于 Ll 区 域内 ， 只 能 完成 区 域内 的 路 
由 学 习 和 计算 ; L2 路 由 器 位 于 骨干 区 域 , 完成 区 域 间 路 由 的 学 习 和 计算 ; L1/2 路 由 器 连 
接 Ll 和 LL2 区 域 ， 完 成 区 域 间 路 由 的 传递 。 华 为 VRP 系统 默认 的 角色 为 L1/2 路 由 器 。 
用 户 VPN 站 点 连接 到 MPLS VPN 骨干 网 的 模式 可 以 使 用 Ll 或 L2, 对 于 IS-IS 来 说 ， 
MPLS VPN 骨干 网 就 好 像 IS-IS 第 三 层 (L3) 网 络 ， 这 就 使 得 每 个 站 点 内 部 可 以 独立 运 
行 IS-IS 进程 ， 而 且 能 学 习 到 其 他 站 点 的 路 由 ， 不 需要 维护 跟 其 他 站 点 之 间 的 邻接 关系 。 
如 图 8-65 所 示 ， 一 个 使 用 IS-IS 作为 PE-CE 间 路 由 协议 的 简单 网 络 及 配置 例子 。 
1 MPLSVPNBackbone | 
| AS 100 | 





图 8-65 PE-CE 运行 JS-IS 路 由 协议 


该 VPN 用 户 有 两 个 站 点 , 都 是 使 用 L1l 的 方式 连接 到 MPLS VPN 上 骨干 网 。 和 其 他 协 
议 一 样 ， 在 PE 上 必须 在 相应 的 VRF 中 创建 IS-IS 进程 ， 如 下 是 IS-IS 在 VRF 中 的 配置 。 


# 
sysname PE1 
# 
Tsis 1 vpn-instance VPN-A 
cost-style wide 
network-entity 49.0001.0000.0000.0002.00 
import-route bgp 
# 
bgp 100 
# e 
ipv4-family vpn-instance VPN-A 
import-route isis 1 level-1 
如 上 输出 所 示 ， 启 动 IS-IS 进程 并 将 其 关联 到 VPN 实例 VPN-A， 在 NET 中 定义 区 
域 地 址 和 系统 DD， 并 且 在 BGP 和 IS-IS 进程 实现 双向 路 由 引入 。 
就 像 OSPF 一 样 ， PE-CE 运行 IS-IS 路 由 协议 时 ， 还 得 考虑 CE 双 归 属 的 场景 下 的 路 
由 环 路 问题 。RFC 2966 为 IS-IS 定义 了 一 个 Up/Down 位 , 这 个 比特 位 的 作用 有 点 像 OSPF 
的 DN 比特 位 。 如 果 该 位 置 为 0， 说 明了 路 由 起 源 于 L1 区 域 ， 如果 该 位 置 为 1， 说 明 路 
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由 是 从 L2 区 域 引 入 到 Ll 区 域 的 。 在 MPLS VPN 环境 中 ， 一 台 PE 路 由 器 在 从 BGP 学 
到 的 VPNv4 路 由 通告 给 IS-IS 时 会 将 Up/Down 位 置 为 1。 在 同 个 站 点 的 其 他 PE 上 ,在 
将 VPN 实例 中 的 IS-IS 路 由 引入 到 BGP 之 前 ， 会 检查 Up/Down 位 是 否 被 置 为 1。 如 果 
已 经 设置 为 1， 那么 就 不 会 将 该 IS-IS 路 由 引入 到 BGP 了 ， 从 而 避免 了 潜在 的 路 由 环 路 。 
IS-IS TLV 128 和 TLV 130 的 默认 度量 字段 中 ，Up/Down 比特 位 于 高 位 。 

BGP 

基础 配置 

BGP 是 PE-CE 之 间 可 以 使 用 的 另 一 种 路 由 协议 ,一 般 在 用 户 需 要 连接 两 个 或 多 个 运 
营 网 络 的 时 候 使 用 BGP， 通 常 使 用 eBGP， 因 为 通常 情况 下 ，VPN 客户 的 AS 号 跟 运 营 
商 的 AS 是 不 相同 的 。 这 时 需要 在 PE 的 址 址 艇 下 指定 CE 为 eBGP 邻居 ，PE 路 由 器 因 
为 从 CE 学 习 到 的 是 BGP 路 由 ， 在 不 需要 作 路 由 引入 操作 的 情况 下 ， 就 能 直接 将 路 由 传 
递 给 其 他 的 PE。 如 下 输出 所 示 ,PE1 在 其 VPN 实 例 下 指定 了 一 个 eBGP 邻居 地 址 10.1.14.1 
(CE)。 

# 

sysname PE1 

# 

bgp 100 

dy vpn-instance VPN-A 

Peer 10.1.14.1 as-number 65000 

, 

AS 替换 

在 PE-CE 使 用 BGP 的 MPLS VPN 环境 中 ， 因 为 BGP 传递 路 由 时 会 携带 AS-PATH 
属性 , 如 果 同 个 VPN 用 户 各 站 点 使 用 不 同 的 AS 号 , 站 点 之 间 可 以 进行 正常 的 路 由 交换 ; 
如 果 同 个 用 户 的 站 点 都 使 用 相同 的 AS 号 ， 那 么 必须 使 能 BGP 协议 的 某 些 特性 ， 以 使 
BGP 能 正常 学 习 到 路 由 ， 这 些 特性 包括 AS 替换 (Substitute-as) 和 Allow-as-loop。 下 面 
分 别 讲述 一 下 这 两 个 特性 的 功能 及 使 用 方法 。 

如 图 8-66 所 示 ， 用 户 的 两 个 站 点 使 用 的 AS 号 都 是 65000。 


| MPLS VPN Backbone eBGP 路 由 : 
| AS 100 AS-Path 为 100 65000 





图 8-66 ”使 用 相同 AS 号 的 站 点 


当 PE1 路 由 器 将 Sitel 的 VPNv4 路 由 通告 给 PE2 时 ,AS-PATH 中 携带 了 AS 号 65000， 
CE2 接收 后 ， 因 为 在 路 由 的 AS-PATH 中 发 现 了 自己 的 AS 号， 会 丢弃 该 路 由 。 同 样 的 ， 
Site2 的 路 由 也 无 法 被 Sitel 接收 。 一 种 解决 办 法 是 为 各 站 点 分 配 不 同 的 AS 号 ， 这 种 方 
案 需 要 修改 很 多 配置 ， 比 较 麻烦 。 另 一 种 比较 简单 的 解决 办 法 是 利用 BGP 的 AS 替换 功 
能 。 AS 替换 的 操作 原理 是 在 PE 路 由 器 向 用 户 CE 通告 路 由 之 前 , 将 AS-PATH 中 出 现 的 
用 户 AS 号 替换 成 运营 商 的 AS 号 。 这 样 ， 远 端 CE 就 会 接收 路 由 了 ， 因 为 在 AS-PATH 
中 看 不 到 自己 的 AS 号 了 。 当 启用 AS 替换 功能 后 ，PE2 检查 到 CE2 的 AS 号 为 65000， 
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在 路 由 通告 给 CE2 之 前 ， 将 AS-PATH 100 65000 替换 成 100 100。 
华为 VRP 系统 配置 AS 蔡 换 的 命令 是 : peer { group-name | ipv4-address } 
substitute-as， 如 下 输出 显示 了 PE2 上 相关 配置 命令 ，10.1.35.1 为 CE2 的 地 址 。 


# 
bgp 100 


Ipv4-family vpn-instance VPN-A 
peer 10.1.35.1 substitute-as 
# 


说 明 : 
在 CE 双 归 属 的 场景 下 ， 使 用 AS 替换 功能 可 能 会 引起 路 由 环 路 。 
Allow-as-loop 
Allow-as-loop 是 另 一 种 解决 方法 ， 启 用 此 特性 后 ，PE 路 由 器 不 需要 检查 AS-PATH 
属性 , 而 是 允许 CE 路 由 器 接收 带 有 自己 AS 号 的 BGP 路 由 ， 如 下 输出 所 示 ， 可 以 在 CE 
端 利 用 Allow-as-loop 特性 来 接收 远 端 站 点 传送 过 来 的 路 由 ， 显 示 了 该 特性 的 使 能 方法 。 
共 
Sysname CE 
# 
bgp 65000 
i 
Peer 10.1.35.2 allow-as-loop 
# 


在 Hub-and-spoke 组 网 环境 中 ， 用 户 可 能 不 希望 Spoke 站 点 之 间 直 接 通信 ， 而 是 需 
要 经 过 Hub 站 点 通信 ， 这 时 ，Spoke 站 点 之 间 的 路 由 也 必须 先 通告 给 Hub 站 点 ， 然 后 再 
由 Hub 站 点 传递 到 其 他 站 点 ， 也 就 是 说 ，Hub 站 点 的 CE 路 由 器 在 接收 到 一 个 Spoke 站 
点 的 路 由 后 ， 又 需要 再 将 其 通告 回 给 PE 路 由 器 ， 这 时 必须 在 PE 路 由 器 上 启用 
Allow-as-loop 才能 接收 路 由 ， 如 图 8-67 所 示 。 






Fr 一 一 一 一 一 一 一 一 一 一 一 一 一 二 二 二 二 一 
来 自 Spokel 的 eBGP 路 由 : 
; MPLS VPN Backbone AS-Path 为 100 65000 


去 往 Spoke2 的 eBGP 路 由 : 
AS-Path 为 100 65000 65001 





图 8-67 Hub-and-spoke 组 网 环境 


这 时 ， 来 自 Spokel 站 点 的 路 由 要 想 再 次 进入 运营 商 网 络 ， 必 须 在 PE2 处 使 能 
Allow-as-loop 特性 才 行 。 

SoO 

前 面 我 们 讲 到 ， 在 CE 双 归 属 的 MPLS VPN 环境 中 ， 容 易 发 生路 由 环 路 。 前 文中 也 
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介绍 了 一 些 防 止 环 路 的 方法 , 同时 还 介绍 了 两 个 BGP 的 特性 为 AS 替换 和 Allow-as-loop， 
这 两 个 特性 完成 了 一 定 的 功能 , 却 使 得 AS-PATH 防 环 机 制 失效 了 ,这 就 造成 了 环 路 隐患 。 
如 图 8-68 所 示 ，CE1 和 CE2 位 于 同一 个 VPN 站 点 ，CE1 接 入 PE1，CE2 接 入 PE2，PE1l 
从 CE1 接收 到 路 由 后 ， 通 过 MP-iBGP 通告 给 其 他 PE〈 包 括 PE2)，PE2 进而 将 路 由 转 
发 给 CE2， 而 CE2 已 通过 Sitel 内 的 IGP 学 习 到 该 路 由 ， 这 样 有 可 能 会 引起 Sitel 内 部 
的 路 由 环 路 。 


VPNv4 路 由 : 
AS-Path=65000 





VPNv4 路 由 -->BGP 路 由 : 
AS-Path=100 65000。 通 过 AS 替换 
或 allow-as-loop，CE2 接收 该 路 由 


图 8-68 ”CE 双 归 属 网 络 


这 种 情况 最 好 利用 BGP 的 另 of- 
Origin) 叫 作 起 源 站 点 , 用 于 标识 路 由 的 发 源 站 点 , 而 SoO 是 一 种 BGP 的 扩展 团体 属性 ， 
用 来 防止 路 由 环 路 。 在 PE-CE 之 间 使 用 的 是 BGP 协议 才 可 以 使 用 SoO。 在 配置 了 SoO 
的 PE 路 由 器 上 ， 当 VPN 实例 中 的 路 由 被 引入 到 BGP 后 会 携带 上 So0O 值 。 在 同一 站 点 
的 其 他 PE 从 公 网 中 接收 到 带 有 So0O 值 的 VPNv4 路 由 时 ， 通 过 比较 该 VPNv4 路 由 中 的 
SoO 值 是 否 和 本 端 配 置 的 一 样 ， 如 果 一 样 就 不 引入 回 给 VPN 实例 ， 从 而 避免 将 路 由 又 
发 布 回 给 源 站 点 ， 如 图 8-69 所 示 。 





VPNv4 路 由 : 
SoO=100: 101 





VPNv4 路 由 : 
SoO=100: 101 


图 8-69 利用 SoO 值 防 环 
如 下 输出 所 示 ， 华 为 VRP 系统 中 SoO 的 配置 方法 。 


# 
Sysname PE2 


bgp 100 
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Ipv4-family vpn-instance VPN-A 
peer 192.168.1.2 substitute-as 
peer 192.168.1.2 SoO 100:101 


PE2 上 针对 CE2 (192.168.1.2) 应 用 了 AS 替换 特性 ， 并 且 设 置 SoO 值 为 100:101。 


8.3.8 MCE 


MCE 是 Multi-VPN-Instance-CE (多 实例 CE) 的 缩写 , 这 个 特性 让 CE 具备 PE 的 功 
能 ， 可 承载 多 个 VPN 实例 ,使 得 多 个 用 户 或 业务 可 以 共享 一 个 CE。MCE 以 较 低 的 成 本 
解决 了 大 型 站 点 中 的 业务 隔离 和 安全 问题 。 

在 MPLS VPN 网 络 环境 下 , 一 个 大 型 站 点 的 局 域 网 可 能 有 多 个 业务 或 部 门 ， 这 些 业 
务 或 部 门 需 要 同 其 他 站 点 的 各 自 的 业务 或 部 门 通信 ， 为 保证 这 些 业 务 的 私密 性 ， 业 务 之 
间 需 要 被 隔离 起 来 。 当 然 ， 在 局 域 网 内 ， 可 以 使 用 VLAN 技术 实现 业务 隔离 ， 然 后 将 每 
一 个 VLAN 关联 到 PE 上 的 子 接口 。 也 可 以 让 每 个 业务 或 部 门 独 享 一 台 CE, 然而 这 样 会 
增加 设备 数量 ， 增 加 用 户 的 设备 开支 和 维护 成 本 。 最 廉价 和 简单 的 方法 就 是 使 用 MCE 
技术 ， 通 过 CE 的 VPN 实例 来 实现 业务 或 部 门 隔离 。MCE 可 以 在 用 户 的 私有 网 络 中 创 


建 出 多 个 VPN， 一 个 业务 或 部 门 对 应 一 个 
VPN， 不 同 VPN 之 间 相 互 隔离 ， 这 就 满足 了 
骨干 网 戎 喜 
PE MCE 





那些 业务 不 断 被 细 化 , 业务 安全 性 要 求 高 的 用 
户 的 需求 ， 如 图 8-70 所 示 。 

MCE 设备 并 不 需要 支持 任何 标签 交换 协 
议 ， 只 需要 为 不 同 的 VPN 创建 各 自 的 路 由 转 
发 表 , 并 绑 定 到 相应 的 接口 。 在 接收 路 由 信息 
时 ，MCE 设备 可 以 根据 路 由 信息 的 入 口 判 断 图 8-70 部 署 MCE 的 组 网 
出 路 由 的 来 源 ， 并 将 其 安装 到 相应 的 VPN 实 
例 转发 表 中 。 同 时 在 PE 上 也 需要 将 连接 MCE 的 接口 与 VPN 实例 进行 绑 定 ， 绑 定 的 方 
式 和 MCE 是 一 样 的 。 

为 了 区 分 MCE 与 PE 之 间 不 同 VPN 的 报 文 ， 需 要 在 MCE 和 PE 之 间 建 立 多 条 物理 
连接 。MCE 采用 三 层 以 太 网 子 接口 解决 了 这 个 问题 。 在 一 个 物理 接口 上 创建 多 个 子 接口 ， 
每 个 子 接口 与 不 同 的 VPN 实例 进行 关联 ， 使 得 CE 和 PE 之 间 只 需要 一 条 物理 链 路 ， 就 
可 以 传递 和 区 分 不 同 VPN 的 报 文 。 

由 于 在 MCE 设备 上 已 经 将 路 由 信息 与 VPN 实例 进行 了 绑 定 ,而 且 在 MCE-PE 之 间 ， 
也 通过 接口 对 VPN 实例 的 报 文 进行 了 区 分 。 因 此 ，MCE 与 PE 之 间 只 需要 配置 简单 的 
路 由 协议 ， 并 将 MCE 的 VPN 路 由 表 项 引入 到 MCE-PE 间 的 路 由 协议 中 ， 即 可 实现 私 网 
VPN 路 由 信息 的 传递 。MCE 与 PE 之 间 可 以 使 用 静态 路 由 、RIP、OSPF、1IS-IS 或 BGP 
交换 路 由 信息 。 但 比较 特殊 的 是 OSPF 协议 。 在 前 面 的 章节 中 我 们 讨论 到 ， 在 CE 双 归 
属 环境 下 ，PE 为 了 防止 环 路 ， 需 要 检查 DN 位 和 Route-tag。MCE 特性 使 得 CE 变 成 了 
PE， 这 时 必须 关闭 这 两 种 检查 ， 才 能 正常 计算 路 由 。 

下 面 介 绍 一 个 MCE 典型 组 网 案例 。 
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组 网 需求 
某 公 司 需要 通过 MPLS VPN 实现 总 部 和 分 支 间 的 互通 , 同时 需要 隔离 两 种 不 同 的 业 
务 。 为 节省 开支 ， 希 望 分 支 通过 一 台 CE 设备 接 入 PE， 如 图 8-71 所 示 。 


3 






Loopback1 1 [G1/0/0 
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图 8-71 MCE 组 网 案例 


CE1、CE2 连接 企业 总 部 ，CE1 属于 vpna，CE2 属于 vpnb; MCE 连接 企业 分 支 ， 
通过 CE3 和 CE4 分 别 连接 vpna 和 vpnb。 要 求 属于 相同 VPN 的 用 户 之 间 能 互相 访问 ， 
不 同 VPN 的 用 户 之 间 不 能 互相 访问 ， 从 而 实现 不 同业 务 间隔 离 。 

部 署 步骤 

(1) PE 之 间 配 置 OSPF 协议 ， 实 现 PE 之 间 的 互通 ; 配置 MP-iBGP 交换 VPN 路 由 
信息 。 

(2) PE 上 配置 MPLS 基本 能 力 和 MPLS LDP， 建 立 LDP LSP。 

(3) PE 和 MCE 上 创建 不 同 的 VPN 实例 (vpna 和 vpnb)， 实 现 不 同 VPN 间 的 业务 
隔离 。 

(4) PE1 与 相连 的 CE 之 间 建 立 eBGP 对 等 体 ， 引 入 VPN 路 由 表 中 。 

(5) MCE 与 Site、MCE 与 PE2 之 间 配 置 路 由 ， 引 入 VPN 路 由 信息 。 

关键 配置 

这 里 只 列 出 PE2 和 MCE 设备 的 重要 配置 信息 。 

PE2 配置 : 


加 
sysname PE2 
# 
ip vpn-instance vpna 
ipv4-family 
route-distinguisher 200:1 
vpn-target 111:1 export-extcommunity 
vpn-target 111:] import-extcommunity 
# 
ip vpn-instance vpnb 
ipv4-family 
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route-distinguisher 200:2 
vpn-target 222:2 export-extcommunity 
vpn-target 222:2 import-extcommunity 
# 
mpls lsr-id 2.2.2.9 
mpls 
# 
mpls ldp 
# 
# 
interface GigabitEthernet2/0/0.1 
dotlq termination vid 10 
ip binding vpn-instance vpna 
ip address 192.1.1.1 255.255.255.0 
## 
interface GigabitEthernet2/0/0.2 
dot1q termination vid 20 
#vid 20 对 应 CE2 的 vlan id 
ip binding vpn-instance vpnb 
ip address 192.2.1.1 255.255.255.0 
# 
bgp 100 
peer 1.1.1.9 as-number 100 
peer 1.1.1.9 connect-interface LoopBackl 
并 
ipv4-family unicast 
undo synchronization 
peer 1.1.1.9 enable 
# 
ipv4-family vpnv4 
policy vpn-target 
peer 1.1.1.9 enable 
# 
ipv4-family vpn-instance vpna 
import-route ospf 100 
# 
ipv4-family vpn-instance vpnb 
import-route ospf 200 
# 
ospf 1 
area 0.0.0.0 
network 2.2.2.9 0.0.0.0 
network 172.1.1.0 0.0.0.255 
# 
ospf 100 vpn-instance vpna 
import-route bgp 
area 0.0.0.0 
network 192.1.1.0 0.0.0.255 
## 
ospf 200 vpn-instance vpnb 
import-route bgp 
area 0.0.0.0 
network 192.2.1.0 0.0.0.255 
# 
return 
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MCE 配置 : 


# 
sysname MCE 
# 
ip vpn-instance vpna 
ipv4-family 
route-distinguisher 300:1 
vpn-target 111:1 export-extcommunity 
vpn-target 111:1 import-extcommunity 
# 
ip vpn-instance vpnb 
ipv4-family 
route-distinguisher 300:2 
vpn-target 222:2 export-extcommunity 
vpn-target 222:2 import-extcommunity 
# 
interface GigabitEthernet1/0/0.1 
dotlq termination vid 10 
ip binding vpn-instance vpna 
ip address 192.1,1.2 255.255.255.0 
# 
interface GigabitEthernet1/0/0.2 
dotlgq termination vid 20 
ip binding vpn-instance vpnb 
ip address 192.2.1.2 255.255.255.0 
四 
interface GigabitEthernet3/0/0 
ip binding vpn-instance vpna 
ip address 10.3.1.2 255.255.255.0 
# 
interface GigabitEthernet4/0/0 
ip binding vpn-instance vpnb 
ip address 10.4.1.2 255.255.255.0 
# 
ospf 100 vpn-instance vpna 
import-route rip 100 
vpn-instance-capability simple 
area 0.0.0.0 
network 192.1.1.0 0.0.0.255 
,# 
ospf 200 vpn-instance vpnb 
import-route rip 200 
vpni-instance-capability simple 
area 0.0.0.0 
network 192.2.1.0 0.0.0.255 
# 
rip 100 vpn-instance vpna 
version 2 
network 10.,0,0.0 
import-route ospf 100 
# 
rip 200 vpn-instance vpnb 
version 2 
network 10.0.0.0 
import-route ospf 200 
# 
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8.3.9 Internet 接 入 


在 MPLS VPN 网 络 中 , 各 种 VPN 用 户 或 应 用 通常 都 有 访问 公共 网 络 或 Internet 的 需 
求 。 要 实现 这 一 需求 ， 就 必须 要 让 用 户 能 访问 到 运营 商 的 全 局 网 络 ， 因 为 Intemet 的 路 
由 位 于 运营 商 的 全 局 路 由 表 中 ， 而 PE 的 VPN 实例 中 存放 的 是 VPN 客户 的 私 网 路 由 ， 
并 且 默 认 情况 下 ，VPN 实例 路 由 和 全 局 路 由 是 互相 隔离 的 ， 所 以 VPN 客户 站 点 不 可 能 
看 到 公 网 路 由 。 要 想 VPN 用 户 能 够 通过 全 局 访问 到 Internet, 就 必须 打通 VPN 网 络 和 全 
局 网 络 之 间 的 路 由 ,当然 , 如 果 具 备 一 定 条 件 , 也 可 以 为 VPN 用 户 站 点 增设 一 条 到 Internet 
网 关 的 线路 ， 这 条 线路 独立 于 MPLS VPN 的 线路 ， 专 门 用 于 传递 到 Internet 的 流量 。 当 
然 ， 这 种 解决 方案 会 产生 额外 的 成 本 ， 但 在 配置 上 却 是 比较 简单 的 做 法 。 总 的 来 说 ， 根 
据 网 络 中 的 情况 及 理论 分 析 ，MPLS VPN 用 户 访问 Internet 可 以 采用 以 下 三 种 方案 。 这 
些 方案 只 是 提供 一 些 建议 ， 实 际 组 网 环境 可 能 要 复杂 得 多 ， 大 家 可 以 视 情况 作 有 具体 规 划 
和 设计 。 这 三 种 方案 分 别 如 下 。 

e 通过 全 局 路 由 表 访 问 Internet。 

。 PE-CE 之 间 单 链 路 访问 Internet。 

e ”使 用 一 个 中 心 站 点 作为 到 Internet 的 连接 。 

8.3.9.1 通过 全 局 路 由 表 访 问 Internet (PE-CE 之 间 双 链 路 或 使 用 子 接口 ) 

一 种 方法 是 在 PE 上 使 用 两 个 接口 连接 CE， 一 个 接口 放 在 VPN 实例 中 ， 另 一 个 接 
口 放 在 全 局 。PE 通过 VPN 实例 中 的 接口 跟 CE 交换 VPN 路 由 ， 通 过 全 局 的 接口 向 CE 
通告 全 局 的 路 由 。 那 么 CE 会 将 访问 VPN 其 他 站 点 的 流量 发 送 到 PE 的 VPN 实例 接口 ， 
把 访问 Internet 的 流量 发 送 到 PE 的 全 局 接口 。 这 种 解决 方案 的 缺点 是 PE 和 CE 间 需 要 
使 用 两 条 链 路 ， 也 可 以 使 用 一 个 接口 ， 然 后 在 这 个 接口 上 配置 两 个 子 接 口 ， 使 用 子 接口 
和 使 用 物理 接口 的 实现 方式 是 一 样 的 ， 如 图 8-72 所 示 。 





图 8-72 PE-CE 之 间 使 用 双 链 路 互 连 ， 使 用 全 局 路 由 表 访 问 Internet 


这 种 情况 下 ，PE 路 由 器 根据 用 户 的 需求 ， 可 以 通过 全 局 的 接口 将 Internet 的 全 部 
或 部 分 路 由 发 布 给 CE, 或 者 只 发 布 一 条 默认 路 由 给 CE， 或 由 CE 手工 设置 一 条 默认 
路 由 。 

如 图 8-73 所 示 ， 采 用 该 方案 中 的 一 个 案例 ， 这 个 案例 中 PE-CE 之 间 采 用 了 子 接口 
互 连 的 方式 。 这 里 假设 由 PE1 直接 通过 全 局 接口 连接 到 Internet 的 网 关 ，PE1 通过 BGP 
学 习 到 了 Internet 的 全 部 路 由 。PE-CE 之 间 采 用 静态 路 由 。 
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图 8-73 ”使 用 全 局 路 由 表 访 问 Internet 
如 下 输出 显示 了 CE1 和 PE1 的 部 分 配置 。 


# 
Sysname CE1 
# 
Interface GigabitEthernet0/0/0.10 # 该 子 接口 用 于 访问 Internet 
description toInternet 
dotlq termination vid 10 
ip address 10.1.14.1 255.255.255.0 
# 
Interface GigabitEthernet0/0/0.20  ## 该 接口 用 于 访问 VPN 其 他 站 点 
description toVPN 1 
dotlg termination vid 20 
ip address 10.1.41.1 255.255.255.0 
# 
Ip route-static 0.0.0.0 0 0.0.0.0 10.1.14.2 # 用 于 访问 Internet 的 默认 路 由 ， 下 一 跳 指向 PE 的 全 局 接口 
Ip route-static 10.3.3.0 255.255.255.0 10.1.41.2 # 访 问 Site-2 的 路 由 ， 下 一 跳 指向 PE 的 VPN 实例 的 接口 
上 
# 
Sysname PE1 












# 

Interface GigabitEthernet0/0/0.10 # 全 局 子 接口 
description Global , 
dotlq termination vid 10 
ip address 10.1.14.2 255.255.255.0 


# 
Interface GigabitEthernet0/0/0.20 # 根 VPN 实例 绑 定 的 子 接口 
dotlq termination vid 20 
| ip binding vpn-instance VPN-A 
ip address 10.1.41.2 255.255.255.0 
# | 
Ip route-static 0.0.0.0 0 0.0.0.0 100.1.1.2 # 访 问 Internet 的 默认 路 由 ， 下 一 跳 指 向 Intermet 网 关 


Ip route-static 10.1.1.0 255.255.255.0 10.1.14,1 # 用 于 将 Intermet 返回 的 流量 转发 给 用 户 站 点 

这 时 还 得 注意 一 个 问题 就 是 ， 在 PE 上 还 需要 将 用 户 站 点 的 路 由 通告 到 Internet， 否 
则 用 户 将 接收 不 到 从 Internet 返回 的 流量 ， 除 非 在 PE 上 做 NAT。 这 样 ， 当 用 户 访问 Internet 
的 流量 经 过 PE 后 ， 源 址 被 转换 成 PE 的 地 址 了 ， 后 一 种 做 法 是 我 们 推荐 的 ， 因 为 用 户 站 
点 内 往往 使 用 的 是 私 网 地 址 ， 所 以 不 能 通告 到 公 网 ， 即 便 用 户 站 点 内 部 使 用 公 网 地 址 ， 
为 安全 起 见 ， 也 不 建议 将 地 址 通告 到 公 网 。 

8.3.9.2 PE-CE 之 间 单 链 路 访问 Internet 

第 一 种 方案 需要 在 PE-CE 之 间 至 少 设置 两 条 链 路 , 产生 了 额外 的 成 本 。 为 节省 成 本 ， 
产生 了 第 二 种 方案 ， 即 在 PE-CE 之 间 只 用 一 条 链 路 ， 用 这 条 链 路 同时 承载 MPLS VPN 
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的 业务 流量 和 到 Internet 的 流量 。 

要 实现 该 方案 ， 要求 PE 路 由 器 从 VPN 实例 接口 收 到 来 自用 户 站 点 的 流量 后 ， 要 能 
够 将 去 往 Internet 的 流量 从 全 局 接口 转发 出 去 给 Internet。 但 是 ， 根 据 PE 路 由 器 缺 省 的 
处 理 行为 ,从 VPN 实例 中 的 接口 收 到 的 数据 ， 只 会 查找 该 实例 的 路 由 表 进 行 转发 ， 不 会 
去 查找 全 局 路 由 表 ， 所 以 ， 最 终 因 为 VPN 实例 中 的 路 由 表 中 没有 相关 的 Internet 全 局 路 
由 而 导致 数据 包 被 丢弃 。 要 解决 这 个 问题 ,在 VPN 实例 中 配置 静态 路 由 时 ， 需 要 在 下 一 
跳 后 面 加 上 Public 关键 字 。Public 代表 全 局 路 由 表 ， 也 就 是 说 ， 这 里 配置 的 下 一 跳 地 址 
可 以 通过 全 局 路 由 表 查 找到 对 应 的 路 由 。 

以 图 8-73 所 示 的 环境 为 例 ，PE-CE 之 间 采 用 静态 路 由 ， 详 细 配 置 如 下 输出 所 示 。 

# 

Sysname PE1 

# 

Interface GigabitEthernet0/0/0 

Ip bingding vpn-instance VPN-A 

Ip address 10.1.14.2 255.255.255.0 

# 

Jp route-static 10.4.4.0 255.255.255.0 GigabitEthernet0/0/0 10.1.14.1 vpn-instance VPN-A 

Ip route-static vpn-instance VPN-A 0.0.0.0 0.0.0.0 100.1.1.2 public 

# 

Sysname CE-1 

# 

# 

Jp route-static 0.0.0.0 0.0.0.0 10.1.14.2 

Jp route-static 10.3.3.0 255.255. 255.0 10.1.14.2 


由 上 面 的 配置 可 以 发 现 , 在 CE 上 配置 的 到 Internet 和 其 他 站 点 《Site2) 的 路 由 指向 
PE 的 同 个 接口 。 在 PE 上 ， 为 VPN 实例 添加 一 条 到 Internet 的 默认 路 由 ， 下 一 跳 指 向 
全 局 。 

8.3.9.3 使 用 一 个 中 心 站 点 作为 到 Internet 的 连接 

这 种 方法 是 将 用 户 VPN 中 所 有 站 点 的 Internet 流量 先 转发 给 一 个 中 心 站 点 , 然后 由 
中 心 站 点 转发 到 Internet， 这 样 做 的 好 处 在 于 ， 可 以 通过 集中 部 署 防火 墙 ， 统 一 管控 所 有 
站 点 访问 Internet 的 流量 ，NAT 和 其 他 安全 防护 策略 只 需要 部 署 一 次 就 行 了 ， 从 而 减少 
了 其 他 站 点 的 配置 和 维护 任务 ， 比 较 适 用 于 Hub-and-spoke 场景 。 

这 种 情况 下 ， 用 作 访 问 Internet 的 中 心 站 点 既 需 要 维护 其 他 站 点 的 VPN 路 由 ， 还 需 
要 维护 来 自 Internet 的 路 由 ， 当 然 也 可 以 采用 默认 路 由 来 访问 Internet， 如 图 8-74 所 示 。 

图 中 的 Sitel 为 中 心 站 点 , PE1 为 Sitel 的 PE，PE1 使 用 两 条 链 路 或 者 两 个 子 接口 连 
接 CE1， 一 个 接口 归属 到 用 户 的 VPN 实例 (VPN-A)， 用 于 接收 和 传递 来 自 其 他 站 点 的 
VPN 路 由 ; 另 一 个 接口 归属 到 用 于 Internet 的 VPN 实例 ， 用 来 接收 和 传递 来 自 PE-GW 
的 Internet 路 由 。 PE2 和 PE-GW、PE2、PE3 之 间 都 建立 MP-iBGP 连接 , 用 于 传递 VPNv4 
路 由 。MPLS VPN 骨干 网 通过 图 中 PE-GW 连接 到 Internet，PE-GW 与 Internet 中 的 路 由 
器 运行 了 iBGP 或 eBGP， 并 在 PE-GW 上 创建 了 连接 Internet 的 VPN 实例 ， 并 将 连接 
Internet 的 接口 划 入 这 个 实例 。PE-GW 接收 到 来 自 Internet 的 路 由 后 放 入 该 VPN 实例 ， 
然后 引入 到 MP-iBGP 成 为 VPNv4 路 由 ， 进 而 传播 到 PE1，PE1 再 发 布 给 CE1，CE1 进 
一 步 将 这 些 路 由 发 布 到 其 他 站 点 。 同 时 ， 其 他 站 点 的 路 由 也 会 通过 Sitel 发 布 到 Internet。 
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8-74 ”通过 中 心 站 点 访问 Internet 
如 下 输出 显示 了 PE1 和 PE-GW 的 部 分 配置 。 


# 
Sysname PE1 
# 
Ip vpn-instance INTERNET 
Ipv4-family 
route-destinguisher 100:2 
vpn-target 100:2 export-extcommunity 
vpn-target 100:2 import-extcommunity 
# 
Ip vpn-instance VYPN-A 
Ipv4-family 
route-distingaisher 100:1 
vpn-target 100:1 export-extcommunity 
vpn-target 100:1 import-extcommunity 
# 
Interface GigabitEthemet0/0/0.10 
dotlgq termination vid 10 
ip binding vpn-instance INTERNET 
ip address 10.1.14.2 255.255.255.0 
# 了 
Interface GigabitEthernet0/0/0.20 
dotlq termination vid 20 ip binding VPN-A 
ip address 10.1.41.2 255.255.255.0 


上 面 显示 了 在 PE1 上 配置 了 两 个 子 接口 用 于 连接 CE1， 并 配置 了 两 个 VPN 实例 
(INTERNET 和 VPN-A)， 分 别 绑 定 到 了 不 同 的 子 接口 上 。 同 时 ，PE1 和 PE-GW 建立 了 
MP-iBGP 邻居 。 


591 


| HCIE 路 由 交换 学 习 指 南 | 


Sysname PE-GW 
# 
Ip vpn-instance INTERNET 
Ipv4-family 
route-destinguisher 100:2 
vpn-target 100:2 export-extcommunity 
vpn-target 100:2 import-extcommunity 
基 
# 
Interface GigabitEthernet0/0/1 
Decription toINTERNET 
ip binding Vpn-instance INTERNET 
ip address 10.1.1.1 255.255.255.0 
# 


bgp 100 
peer 10.1.1.1 as-number 100 
peer 10.1.1.1 connect-interface LoopBack6 
# 
Ipv4-family unicast 
undo synchronization 
peer10.1.1.1 enable 
# 
Ipv4-family vpnv4 
policy vpn-target 
peer 10.1.1.1 enable 
# 
Ipv4-family vpn-instance INTERNET 
network 0.0.0.0 
import-route static 
# 
Ip route-static vpn-instance INTERNET 0.0.0.0 0.0.0.0 100.1.1.2 


# 

在 上 面 的 输出 中 ， 可 以 发 现在 PE-GW 上 配置 了 一 个 叫 INTERNET 的 VPN 实例 ， 
并 将 连接 Internet 的 接口 绑 定 到 该 VPN 实例 ， 同 时 为 实例 配置 了 一 条 指 回 Internet 的 默 
认 路 由 ， 并 将 这 条 默认 路 由 宣告 进 了 MP-BGP， 这 样 做 的 目的 是 让 其 他 所 有 站 点 能 接收 
到 这 条 默认 路 由 ， 从 而 无 需 接收 Internet 的 所 有 路 由 ， 节 省 了 设备 的 开销 。 


8.3.10” 跨 域 的 MPLS VPN 解决 方案 介绍 


8.3.10.1 概述 

随 着 MPLS 技术 的 成 熟 ， 其 应 用 越 来 越 流 行 ， 尤 其 是 在 VPN 方面 。 通 过 运营 商 提 
供 的 VPN 服务 ,将 分 布 在 各 地 的 站 点 通过 运营 商 的 网 络 连接 起 来 ， 避 免 了 租用 专线 ， 节 
省 了 大 量 的 成 本 。 近 年 来 ,由 于 MPLS VPN 业务 的 迅猛 发 展 ， 企 业 的 站 点 数量 也 在 不 断 
增长 ， 企 业 间 经 常 发 生 并 购 与 整合 的 现象 ,使 得 其 不 同 分 支 站 点 可 能 属于 不 同 的 运营 商 。 
因此 ， 对 于 大 型 电信 运营 商 来 说 ， 目 前 需要 解决 的 问题 是 如 何 部 署 一 个 易 扩 展 、 易 维护 
的 跨 域 MPLS L3 VPN。 

跨 域 VPN 有 以 下 两 种 最 普遍 的 形式 。 

。 一 种 情况 是 对 于 一 个 大 型 电信 运营 商 网 络 ， 一 般 会 为 一 个 省 分 配 一 个 AS， 要 
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求 跨 省 为 客户 提供 MPLS VPN 业务 ; 或 者 是 在 一 个 省 级 网 络 范围 内 ， 也 经 常 为 
每 个 地 市 的 城 域 网 分 配 一 个 保留 的 AS， 要求 跨 地 市 提供 MPLS VPN 业务 。 
e “ 另 一 种 情况 是 VPN 客户 网 络 穿越 了 多 个 不 同 的 运营 商 网 络 , 运 营 商 之 间 相 互 合 
作 “〈 特 别 是 国际 业务 方面 与 国外 运营 商 之 间 的 合作 )。 
普通 的 MPLS VPN 体系 结构 都 是 在 一 个 AS 内 运行 的 ， 任 何 VPN 的 路 由 信息 都 是 
只 能 在 一 个 AS 内 按 需 扩 散 的 ， 没 有 提供 AS 内 的 VPN 信息 向 其 他 AS 扩散 的 功能 。 如 
图 8-75 所 示 ， 为 了 支持 运营 商 不 同 AS 之 间 的 VPN 路 由 信息 交换 ， 就 需要 扩展 现 有 的 
协议 和 修改 MPLS VPN 体系 框架 ， 提 供 一 个 不 同 于 基本 的 MPLS VPN 体系 结构 所 提供 
的 互 连 模型 跨 域 (Inter-AS) 的 MPLS VPN， 以 便 可 以 穿 过 运营 商 间 的 链 路 来 发 布 路 由 


前 级 和 标签 信息 。 
如 何 让 两 个 不 同 AS 内 
的 同一 VPN 用 户 互通 
ASBR-PE1 ASBR-PE2 






VPN 用 户 连 在 不 同 的 AS 上 


图 8-75” 跨 域 MPLS VPN 


实现 方式 

目前 ， 业 务 主流 的 跨 域 MPLS VPN 的 互通 方式 有 三 种 ， 这 种 解决 方案 由 RFC4364 
定义 ， 它 们 分 别 如 下 。 

跨 域 YPN-OptionA 〈Inter-Provider Backbones Option A) 方式 : 需要 跨 域 的 VPN 在 
ASBR (AS Boundary Router) 间 通 过 专用 的 接口 管理 自己 的 VPN 路 由 ， 也 称 为 
VRF-to-VRF, 

跨 域 VPN-OptionB(Inter-Provider Backbones Option B ) 方 式 : ASBR 间 通 过 MP-eBGP 
发 布 标签 VPN-IPv4 路 由 ， 也 称 为 eBGP redistribution of labeled VPN-IPv4 routes。 

跨 域 VYPN-OptionC 〈Inter-Provider Backbones Option C) 方式 : PE 间 通 过 Multi-hop 
MP-eBGP 发 布 标签 VPN-IPv4 路 由 ， 也 称 为 Multihop eBGP redistribution of labeled 
VPN-IPv4 routes 。 

在 不 同 的 情况 下 ,这 几 种 解决 方案 都 有 不 同 的 优 缺点 , 在 实际 的 网 络 环境 中 ,Option 
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B 和 Option C 也 有 不 同 的 变种 ， 这 里 只 介绍 它们 的 常规 实现 方案 。 

8.3.10.2 Option A 

8.3.10.2.1 Option A 介绍 

Option A 又 称 作 VRF-to-VRF 方式 ，ASBR 和 ASBR 通过 背靠背 的 方式 互 连 , ASBR 
同时 也 是 各 自 所 在 AS 的 PE。 两 个 ASBR 都 把 对 端 ASBR 看 作 自 己 的 CE 设备 ， 将 会 为 每 
一 个 VPN 创建 VPN 实例 ， 通 过 划分 子 接口 的 方式 ， 每 个 子 接口 分 别 绑 定 一 个 VPN 实例 。 

因为 Option A 的 ASBR 之 间 互 为 CE 的 关系 ， 所 以 ASBR 之 间 不 需要 任何 标签 ， 不 
用 运行 LDP。ASBR 之 间 可 以 运行 多 种 路 由 协议 ， 包 括 BGP、OSPF、 静 态 等 。 目 前 ， 
在 实际 网 络 中 ,使 用 静态 路 由 配置 居多 。 从 转发 层 来 看 , 针对 某 个 VPN 的 数据 包 在 ASBR 
之 间 是 纯 IP 转发 ， 不 带 任何 标签 ， 就 像 在 CE 和 PE 之 间 转 发 的 一 样 。 图 8-76 所 示 为 一 
个 使 用 Option A 的 VPN 网 络 。 





VPN-LSP] VPN-LSP2 


IP Forwarding 
LSP-1 LSP-2 


PE ASBR-1l ASBR-2 PE 


图 8-76 ”使 用 Option A 解决 方案 的 网 络 


8.3.10.2.2 ”Option A 的 路 由 发 布 过 程 

如 图 8-77 所 示 , 两 个 VPN (VPN1 和 VPN2) 都 需要 穿越 AS 100 和 AS 200, AS 100 
的 ASBR-1 和 AS 200 的 ASBR-2 进行 背靠背 连接 ,并 建立 eBGP 邻居 关系 。 这 里 以 VPN1 
为 例 : 站 点 VPN1-CE1 的 路 由 161.10.1.0/24 先 由 VPN1-CE1 路 由 器 通告 给 PE1，PE1 将 
其 变 成 VPNv4 路 由 ， 并 为 其 分 配 了 一 个 内 网 标签 L1， 然 后 通告 到 了 ASBR-1。ASBR-1l 
将 其 变 成 普通 IPv4 路 由 后 通告 给 ASBR-2 (这 里 没有 为 路 由 分 配 标签 了 )，ASBR-2 从 
VPN 实例 的 接口 收 到 路 由 后 ， 再 一 次 将 路 由 变 成 VPNv4 路 由 并 为 其 分 配 一 个 内 网 标签 
L2， 然 后 在 AS 200 中 扩散 到 其 他 PE。PE3 接收 到 VPNv4 路 由 后 ， 将 路 由 还 原 成 IPv4 
路 由 ， 最 后 通告 到 VPN1-CE2。 其 他 站 点 间 的 路 由 交换 过 程 类 似 。 

在 每 个 AS 内 ，PE 需要 建立 到 达 该 AS 内 ASBR 的 LSP， 这 通过 域内 配置 的 LDP 
协议 来 完成 ， 在 ASBR 之 间 不 需要 配置 LDP。 

8.3.10.2.3 Option A 的 报 文 转发 过 程 

如 图 8-78 所 示 ，Ly 是 AS 100 内 ASBR-1 到 PE1 的 公 网 标签 ，Lx 是 AS 200 内 PE3 
到 ASBR-2 的 公 网 标签 ，LI1 和 L2 分 别 是 AS 100 和 AS 200 的 私 网 标签 。 
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VPN-v4 Update: 







VPNv4 Update: RD:1:27:161.10.1.0/24, 
RD:1:27:161.10.1.0/24, NH=ASBR-2 
NH=PE]1 RT=100:1，Label=(L2) 








VPN1-CEl RT=100:1, Label=(L1) 


VPN1-CE2 





VPN2-CE] 





VPN2-CE2 






VPN-LSP2 






PE ASBR-1l ASBR-2 PE 


NYE 
VPN1-CEl DN 


PE ASBR-1 ASBR-2 PE 
图 8-78 ”Option A 的 数据 转发 过 程 


Option A 的 特点 

优点 : 简单 也 是 实用 的 ， 因 为 在 ASBR 之 间 不 需要 运行 MPLS， 所 以 不 要 扩展 协议 
和 做 特殊 的 配置 , 属于 天 然 支持 。 在 需要 跨 域 的 VPN 数量 比较 少 的 情况 下 可 以 考虑 使 用 。 

缺点 :ASBR 需要 为 每 个 VPN 创建 一 个 VPN 实例 , 需要 管理 和 维护 所 有 VPN 路 由 ， 
如 果 VPN 数量 众多 ， 将 导致 ASBR 的 VPNv4 路 由 表 空 间 过 于 庞大 ， 资 源 开销 大 。 如 果 
跨 多 个 域 ， 配 置 的 工作 量 很 大 ， 扩 展 性 太 差 。 

8.3.10.2.4 Option A 的 典型 组 网 案例 

(1) 组 网 需求 及 拓扑 。 

某 公司 总 部 和 分 部 跨越 不 同 的 运营 商 进 行 互 连 ， 需 实现 跨 域 的 MPLS L3 VPN 业务 
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的 互通 。 如 图 8-79 所 示 ，CE1 连接 公司 总 部 , 通过 AS100 的 PE1 接 入 运营 商 网 络 。CE2 
连接 公司 分 部 ,通过 AS 200 的 PE2 接 入 另 一 个 运营 商 网 络 。CE1 和 CE2 同属 于 VPN1。 


MPLS VPN Backbone Loopbackl pbackl ，，MPLS VPN Backbone 
AS100 -， 2.2.2.9/32 ) 





图 8-79” 跨 域 组 网 案例 


(2) 部 署 思路 。 

本 例 采 用 Option A 方式 实现 。 配 置 的 主要 思路 如 下 。 

。 各 AS 内 的 MPLS 骨干 网 上 分 别 配 置 IGP 协议 ， 实 现 各 自 骨干 网 ASBR-PE 和 

PE 之 间 的 互通 。 
e 各 AS 内 的 MPLS 骨干 网 上 分 别 配置 MPLS 基本 能 力 和 MPLS LDP, 建立 LDPLSP。 
e 各 AS 内 ，PE 与 ASBR-PE 之 间 建 立 MP-iBGP 对 等 体 关 系 ， 交 换 VPN 路 由 信息 。 
e。 各 AS 内 ,与 CE 相连 的 PE 上 需 配 置 VPN 实例 , 并 把 与 CE 相连 的 接口 和 相应 
的 VPN 实例 绑 定 。 

e 各 AS 内 ，PE 与 CE 之 间 建 立 eBGP 对 等 体 关 系 ， 交 换 VPN 路 由 信息 。 

。 在 两 个 ASBR-PE 上 创建 VPN 实例 ， 并 将 此 实例 绑 定 到 连接 另 一 个 ASBR-PE 
的 接口 (把 一 个 ASBR-PE 当成 是 自己 的 CE)， 并 在 ASBR-PE 之 间 建 立 eBGP 
对 等 体 关 系 传递 VPN 路 由 信息 。 

(3) 配置 数据 。 

由 于 篇 幅 有 限 ， 这 里 仅 给 出 每 个 AS 的 PE 及 ASBR 的 主要 配置 信息 。 因 为 PE2 和 
ASBR-PE2 的 配置 跟 PE1 和 ASBR-PE 的 类 似 ， 所 以 这 里 仅 提 供 PE1 和 ASBR-PE1 的 
配置 。 

PE1 的 主要 配置 : 


# 
sysname PE1 
# 
ip vpn-instance vpnl 
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mpls ldp 


interface GigabitEthermnetl/0/0 
ip address 172.1.1.1 255.255.255.0 
mpls 
mpls ldp 
# 
interface GigabitEthernet2/0/0 
ip binding vpn-instance vpnl 
ip address 192.1.1.1 255.255.255.0 
# 
bgp 100 
peer 1.1.1.9 as-number 100 
Peer 1.1.1.9 connect-interface LoopBackl 
# 
ipv4-family unicast 
undo synchronization 
import-route direct 
peer 1.1.1.9 enable 
# 
ipv4-family vpnv4 
policy vpn-target 
peer 1.1.1.9 enable 
# 
ipv4-family vpn-instance vpnl 
peer 192.1.1.2 as-number 200 
import-route direct 
# 
ospf 1 
area 0.0.0.0 
network 2.2.2.9 0.0.0.0 
network 172.1.1.0 0.0.0.255 
8.3.10.3 Option B 


8.3.10.3.1 ”OptionB 介绍 

OptionB 叫 作 单 跳 MP-eBGP 方案 ， 也 叫 作 eBGP 再 分 配方 式 。 在 该 方案 中 ，ASBR 
不 需要 为 每 个 VPN 创建 VPN 实例 , ASBR 和 AS 内 的 iBGP 会 话 学 习 到 PE 上 的 VPNv4 
路 由 ， 再 通过 eBGP 会 话 将 这 些 路 由 再 发 布 到 其 他 AS 的 ASBR。 但 在 MPLS VPN 的 基 
本 实现 中 ,PE 上 只 保存 与 本 地 VPN 实例 的 RT 值 相 匹配 的 VPN 路 由 。 通 过 对 标签 VPNv4 
路 由 进行 特殊 处 理 ， 让 ASBR 不 进行 RT 值 匹配 ， 这 样 就 可 以 把 收 到 的 VPNv4 路 由 全 部 
保存 下 来 ， 而 不 管 本 地 是 否 有 和 它 匹 配 的 VPN 实例 。 

从 转发 层面 来 看 ， 针 对 某 个 特定 VPN 的 报 文 在 两 台 ASBR 之 间 是 带 有 一 层 标 签 的 ， 
而 这 一 层 标 签 是 由 ASBR 之 间 的 MP-eBGP 协议 分 配 的 。 

如 图 8-80 所 示 ,ASBR-1 和 ASBR-2 建 立 MP-eBGP 邻居 关系 ,用 以 交换 各 自 的 VPNv4 
路 由 ， 图 中 的 VPN-LSP 表示 私 网 转发 隧道 ，LSP 表示 公 网 转发 隧道 。 

8.3.10.3.2 ”OptionB 的 路 由 发 布 

图 8-81 显示 了 Option B 的 路 由 发 布 过程 ， 这 里 以 VPN-1 站 点 (VPN1-CE1) 将 路 由 
161.10.1.0/24 发 布 到 男 一 站 点 (VPN1-CE2) 的 整个 过 程 为 例 进 行 说 明 ， 其 中 标签 100、 
200、300 都 是 指 VPNv4 路 由 携带 的 私 网 标签 。 
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VPN1-CEl VPN1-CE2 





VPN2-CE2 







VPN-LSP3 














VPN-LSP1 VPN-LSP2 


PE ASBR-1l ASBR-2 PE 


图 8-80 ”使 用 Option B 解决 方案 的 网 络 
BGP, OSPF, RIPv2 
161.10.1.0/24，NH=CEI1 
VPNv4 Update: 


RD:1:27:161.10.1.0/24, 
NH=PE1 
RT=100:1, Label=(L1) 






VPN-v4 Update: 
RD:1:27:161.10.1.0/24, 
NH=ASBR-2 
RT=100:1,， Label=(L3) 












VPN1-CE1 





VPN2-CE1 VPN-v4 Update: 
RD:1:27:161.10.1.0/24， 
NH=ASBR-1 


RT=100:1, Label=(L2) 








VPN-LSP] VPN-LSP2 VPN-LSP3 





PE ASBR-l ASBR-2 PE 


图 8-81 Option B 路 由 交换 过 程 


具体 过 程 如 下 。 

第 1 步 : VPN1-CE1 通过 BGP、OSPF 或 RIP 方式 将 路 由 发 布 给 AS 100 内 的 PE1。 

第 2 步 , AS 100 内 的 PE1 先 通过 MP-iBGP 方式 把 VPNv4 路 由 及 私 网 标签 (L1) 
发 布 给 AS 100 的 ASBR-1。 

第 3 步 : ASBR-1 通过 MP-eBGP 方式 把 VPNv4 路 由 及 私 网 标签 (L1) 发 布 给 ASBR-2。 
由 于 MP-eBGP 在 传递 路 由 时 , 需要 改变 路 由 的 下 一 跳 , ASBR-1 向 外 发 布 时 会 为 VPNv4 
路 由 信息 分 配 新 标签 〈L2 )。 

第 4 步 : ASBR-2 通过 MP-iBGP 方式 把 VPNv4 路 由 和 私 网 标签 (L2) 发 布 给 AS 200 
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内 的 PE3; 由 于 ASBR-2 向 域内 的 MP-iBGP 对 等 体 发 布 路 由 时 , 将 下 一 跳 改 为 自己 , 所 
以 要 为 VPNv4 路 由 信息 分 配 新 标签 〈(L3)。 

第 5 步 : AS 200 内 的 PE-3 将 VPNv4 路 由 发 布 进 VPN 实例 中 ， 然 后 通过 BGP、OSPF 
或 RIP 路 由 的 方式 将 IPv4 路 由 发 布 给 VPN1-CE2。 

由 上 面 的 过 程 可 以 看 出 ， 在 两 个 ASBR 之 间 也 交换 了 私 网 标签 ， 这 个 标签 是 由 
MP-BGP 来 产生 和 传递 的 ， 不 需要 配置 LDP 协议 。 

8.3.10.3.3 Option B 的 数据 交换 过 程 

在 Option B 解决 方案 中 ， 报 文 在 ASBR 之 间 的 转发 是 携带 标签 的 ，ASBR 将 报 文 转 
发 至 另 一 个 AS 的 ASBR 时 ， 需 要 进行 一 次 标签 交换 操作 ， 如 图 8-82 所 示 ， 图 中 LI1、 
L2、L3 是 私 网 标签 ，Lx 和 Ly 分 别 是 两 个 AS 内 的 公 网 标签 。 







SS 
Ne - P-IBGP 
TH NE ASBR- ASPR2 ”LE 人 
|_1611011 | 16110.1.1 | 
No A 


As20 





VEPN-LSP1 VPN-LSP2 VPN-LSP3 


LSP-1 LSP-2 


PE ASBR-1l ASBR-2 PE 


图 8-82 ”Option B 的 数据 转发 过 程 


如 图 8-82 所 示 ， 这 里 以 VPN1-CE2 访问 VPN1-CE1 的 161.10.1.1 的 主机 为 例 ， 分 析 
一 下 Option B 中 报 文 的 转发 流程 。 

第 1 步 : VPN1-CE2 将 IPv4 报 文 转发 至 PE3。 

第 2 步 : PE3 在 报 文 中 压 入 私 网 标签 (L3) 和 公 网 标签 Lx 后 ， 转 发 给 下 一 跳 。 

第 3 步 : 报 文 到 达 AS 200 的 ASBR-2 时 ， 只 有 私 网 标签 (L3)，ASBR-2 根据 标签 
转发 表 将 标签 L3 替换 成 L2， 并 转发 给 AS 100 的 ASBR-1。 

第 4 步 : ASBR-1 将 报 文中 的 私 网 标签 L2 替换 成 L1， 并 在 报 文 外 面 再 压 入 一 层 AS 
100 的 公 网 标签 Ly， 转 发 至 下 一 跳 。 

第 5 步 : 报 文 到 达 PE1 时 只 有 一 层 私 网 标签 L1， 移 除 私 网 标签 并 以 IP 转发 的 方式 
发 布 给 CE1。 

8.3.10.3.4 ”Option B 的 特点 

优点 : 

不 需要 在 ASBR 上 为 每 个 VPN 创建 VPN 实例 ， 不 需要 跨 域 扩展 协议 ， 容 易 管 理 


VPN 的 路 由 信息 是 通过 AS 之 间 的 ASBR 来 保存 和 扩散 的 ， 当 VPN 路 由 较 多 时 ， 
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ASBR 负担 重 ， 容 易 成 为 故障 点 。 因 此 ， 在 MP-eBGP 方案 中 ， 需 要 维护 VPN 路 由 信息 
的 ASBR 一 般 不 再 负责 公 网 卫 转发 。 

8.3.10.3.5 ”Option B 典型 组 网 案例 

还 是 以 图 8-79 的 场景 为 例 ， 此 时 在 AS 100 和 AS 200 之 间 利 用 Option B 解决 方案 
来 实现 跨 域 的 VPN 业务 互通 ， 这 里 仅 提 供 PE1 和 ASBR-PE1 的 配置 命令 。 

PE1 的 主要 配置 : 


# 
sysname PE1 
# 
ip vpn-instance vpnl 
ipv4-family 
route-distinguisher 100:1 
vpn-target 1:] export-extcommunity 
vpn-target 1:1 import-extcommunity 
# 
mpls lsr-id 1.1.1.9 
mpls 
并 
mpls ldp 
# 
interface GigabitEthernet1/0/0 
ip address 172.1.1.2 255.255.255.0 
mpls 
mpls ldp 
# 
interface GigabitEthernet2/0/0 
ip binding ypn-instance vpnl 
ip address 10.1.1.2 255.255.255.0 
# 
interface LoopBackl 
ip address 1.1.1.9 255.255.255.255 
# 
bgp 100 
peer 2.2.2.9 as-number 100 
peer 2.2.2.9 connect-interface LoopBack1 
# 
ipv4-family unicast 
undo synchronization 
peer 2.2.2.9 enable 
# 
ipv4-family vpnv4 
policy vpn-target 
peer 2.2.2.9 enable 
# 
ipv4-family vpn-instance vpnl 
peer 10.1.1.1 as-number 65001 
import-route direct 
# 
ospf 1 
area 0.0.0.0 
network 1.1.1.9 0.0.0.0 
network 172.1.1.0 0.0.0.255 
# 
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ASBR-PE1 的 配置 : 
# 
sysname ASBR-PE1 
# 
mpls lsr-id 2.2.2.9 
mpls 
# 
mpls ldp 
# 
interface GigabitEthernet1/0/0 
ip address 172.1.1.1 255.255.255.0 
mpls 
mpls ldp 
# 
interface GigabitEthemet2/0/0 
ip address 192.1.1.1 255.255.255.0 
mpls 
# 
interface LoopBackl 
ip address 2.2.2.9 255.255.255.255 
四 
bgp 100 
peer 192.1.1.2 as-number 200 
peer 1.1.1.9 as-number 100 
peer 1.1.1.9 connect-interface LoopBackl 
# 
ipv4-family unicast 
undo synchronization 
peer 192.1.1.2 enable 
peer 1.1.1.9 enable 
i 
ipv4-family vpnv4 
tndo policy vpn-target 
apply-label per-nexthop 
peer 1.1.1.9 enable 
peer 192.1.1.2 enable 
基 
ospf 1 
area 0.0.0.0 
network 2.2.2.9 0.0.0.0 
network 172.1.1.0 0.0.0.255 
# 


说 明 : 
PE2 和 ASBR-PE2 的 配置 跟 PE1 和 ASBR-PE 类 似 ， 此 处 不 再 详 述 。 


8.3.10.4 Option C 

8.3.10.4.1 ”Option C 介绍 

Option C 也 叫 作 Multi-Hop EBGP 方案 ， 这 种 方案 是 在 不 同 AS 的 PE 之 间 直 接 建 立 
MP-eBGP 连接 ， 以 交换 VPNv4 路 由 。 与 前 两 种 方案 不 同 的 是 ，ASBR 不 再 需要 维护 和 交 
换 VPNv4 路 由 了 , 减轻 ASBR 设备 负担 的 同时 也 增强 了 网 络 的 扩展 性 。 为 提高 可 扩展 性 ， 
也 可 以 在 每 个 AS 中 指定 一 个 路 由 反射 器 RR， 由 RR 保存 所 有 VPNv4 路 由 与 本 AS 内 的 
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PE 交换 VPNv4 路 由 信息 。 两 个 AS 的 RR 之 间 建 立 MP-eBGP 连接 ， 通 告 VPNv4 路 由 。 

从 转发 层面 看 , 这 种 方案 需要 在 不 同 的 PE 之 间 直 接 建立 公 网 隧道 ,这 就 要 求 PE 必 
须 具 有 对 方 PE 的 Loopback 地 址 的 路 由 及 标签 ， 一 种 方法 是 在 ASBR 处 ， 将 BGP 学 习 
到 的 对 方 PE 的 Loopback 地 址 路 由 引入 到 本 地 的 IGP, 使 得 LDP 能 为 其 分 配 标 签 。 另 外 ， 
由 于 ASBR 之 间 运 行 的 是 BGP，LDP 协议 通过 IGP 路 由 而 建立 的 LSP 会 在 ASBR 之 间 
中 断 ， 需 要 在 ASBR 之 间 利 用 eBGP 来 传递 IPv4 路 由 的 标签 ， 使 得 针对 PE 的 Loopback 
地 址 的 LSP 得 以 贯通 。 此 时 ， 针 对 某 个 特定 VPN， 从 PE 发 出 的 数据 包 通 常 带 有 三 层 标 
签 ， 最 里 面 的 标签 是 对 方 AS 的 PE 为 特定 VPN 分 配 的 VPN 标签 《也 叫 私 网 标签 )， 中 
间 的 标签 是 本 ASBR 为 对 方 AS 的 PE 路 由 器 分 配 的 标签 ， 最 外 面 的 标签 是 本 AS 为 IGP 
路 由 分 配 的 LDP 标签 。 

8-83 所 示 是 Option C 的 组 网 情况 ， 图 中 ，VPN LSP 表示 私 网 隧道 ，LSP 表示 公 网 隧 
道 ， 还 有 一 条 BGP LSP 在 图 中 没 标记 出 来 ， 它 的 主要 作用 是 两 个 PE 之 间 相 互 交 换 数 据 。 






VPN1-CE2 


VPN2-CE2 


PE ASBR-1 ASBR-2 PE 
图 8-83 Option C 解决 方案 的 组 网 图 


8.3.10.4.2 ”Option C 的 路 由 发 布 过 程 

在 Option C 中 不 同 AS 的 PE 之 间 必 须 能 学 到 对 方 的 Loopback 地 址 路 由 ， 以 建立 
MP-eBGP 连接 ， 交 换 VPNv4 路 由 ， 如 图 8-84 所 示 ， 图 中 D 表示 目标 网 络 前 缀 地址 ， 
NH 表示 下 一 跳 ，L3 表示 所 携带 的 私 网 标签 ，L9、L10 表示 BGP LSP 的 标签 。 图 中 省 略 
了 公 网 IGP 路 由 和 标签 的 分 配 过 程 。 

ASBR1 通过 eBGP 将 PE1 的 Loopback 地 址 1.1.1.1/32 以 IPv4 路 由 的 形式 通告 给 
ASBR2， 并 且 为 该 路 由 分 配 了 一 个 标签 L9，ASBR2 随后 将 路 由 通告 到 PE3， 因 为 修改 
了 下 一 跳 ， 所 以 为 路 由 重新 分 配 了 一 个 标签 L10。 这 两 个 标签 (L9 和 L10) 是 建立 PE3 
到 ASBR1 的 BGPLSP 使 用 的 。 

PE1 接收 到 CE 的 私 网 路 由 10.1.1.0/24 后 ， 通 过 MP-iBGP 以 VPNv4 的 形式 直接 通 
告 到 了 PE3， 该 VPNv4 路 由 携带 了 一 个 VPN 私 网 标签 L3。PE3 再 以 IPv4 路 由 的 形式 
发 布 到 CE2。 
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Dr ll.1.12 
NH=ASBR2 
Label=(L10) 


p> 
BGP, OSPF, RIPv2 |a2% 
10.1.1.1/24, NH=CE!] 


D: 1.1.1.1/32 
NH=ASBRI1 
Label=(L9) 


10.1.1.1/24 
图 8-84 ”Option C 的 路 由 发 布 过 程 


8.3.10.4.3 ”Option C 的 报 文 转发 
图 8-85 所 示 为 Option C 的 报 文 转发 过 程 , 图 中 的 Lx、Ly 表示 相应 AS 内 的 公 网 LSP 
标签 ，L3 为 VPN 标签 ，L9 和 L10 是 BGPLSP 的 标签 。 


10.1.1.1/24 


图 8-85 Option C 的 报 文 转发 过 程 


报 文 从 PE3 向 PE1 转发 时 , 需要 在 PE3 上 打上 三 层 标签 , 分 别 为 VPN 路 由 的 标签 、 BGP 
LSP 的 标签 和 公 网 LSP 的 标签 。 到 ASBR2 时 ， 只 剩 下 两 层 标 签 ， 分 别 是 VPN 的 路 由 标签 和 
BGP LSP 的 标签 ; 进入 ASBR1 后 , BGP LSP 终结 , 之 后 就 是 普通 的 MPLS VPN 的 转发 流程 。 

8.3.10.4.4 ”Option C 的 特点 

优点 : 

这 种 方案 应 该 说 是 最 容易 被 接受 的 ， 因为 它 符合 MPLS VPN 的 体系 结构 的 要 求 ， 只 
有 PE 知道 VPN 路 由 信息 ， 而 P 路 由 器 只 负责 报 文 转发 。 这 样 就 使 得 中 间 域 的 设备 可 以 
不 支持 MPLS VPN 业务 。 尤 其 是 在 跨越 多 个 域 时 优势 更 加 明显 , 而 且 这 个 方案 支持 负载 
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分 担 等 功能 。 

缺点 : 

要 对 BGP 做 扩展 (利用 了 BGP 的 一 个 新 特性 (RFC3107)， 这 个 特性 可 以 让 BGP 
传递 公 网 路 由 的 时 候 携 带 标签 )， 而 且 隧 道 的 生成 也 是 有 别 于 普通 的 MPLS VPN 结构 ， 
因此 维护 和 理解 起 来 难度 比较 大 ， 不 适合 用 于 企业 网 的 环境 。 

8.3.10.4.5 _ Option C 的 典型 组 网 案例 

Option C 在 华为 路 由 器 中 有 两 种 实现 方案 , 仍然 以 图 8-79 的 场景 为 例 ， 分别 对 两 种 
方案 的 配置 进行 说 明 。 

(1) 方案 1: 


PE1 的 主要 配置 : 
#PE1 上 VPN 实例 的 配置 
ip vpn-instance vpnl 
ipv4-family 
route-distinguisher 100:1 
vpn-target 1:1 export-extcommunity 
vpn-target 1:1 import-extcommunity 


# 了 配置 PE1 的 MPLS 基本 能 力 ， 并 在 与 ASBR-PE1 相连 的 接口 上 使 能 LDP 
mpls lsr-id 1.1.1.9 
mpls 
# 
mpls ldp 
# 性 
interface GigabitEthernet1/0/0 
ip address 172.1.1.2 255.255.255.0 
mpls 
mpls ldp 
# 
interface GigabitEthernet2/0/0 
ip binding vpn-instance vpnl 
ip address 10.1.1.2 255.255.255.0 
# 


# 配置 PE1 与 ASBR-PE1 建立 MP-iBGP 对 等 体 关 系 
‘bgp 100 
peer 2.2.2.9 as-number 100 
‘peer 2.2.2.9 connect-interface LoopBackl 
peer 4.4.4.9 as-number 200 
peer 4.4.4.9 ebgp-max-hop 10 
peer 4.4.4.9 connect-interface LoopBack1l 
# 
ipv4-family unicast 
undo synchronization 
peer 2.2.2.9 enable 
peer 2.2.2.9 label-route-capability 
peer 4.4.4.9 enable 
# 
ipv4-family vpnv4 
policy vpn-target 
peer 2.2.2.9 enable 
peer 4.4.4.9 enable 
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ipv4-family vpn-instance Vpnl 
peer 10.1.1.1 as-number 65001 
import-route direct 
其 
ospf 1 
area 0.0.0.0 
network 1.1.1.9 0.0.0.0 
network 172.1.1.0 0.0.0.255 


# 
ASBR-PE1 的 主要 配置 : 


# 
sysname ASBR-PE1 


# 配置 ASBR-PE1 的 MPLS 基本 能 力 ， 并 在 与 PEI 相连 的 接口 上 使 用 LDP 
mpls lsr-id 2.2.2.9 
mpls 

# 

mpls ldp 

# 

interface GigabitEthernet1/0/0 
ip address 172.1.1.1 255.255.255.0 
mpls 
mpls ldp 

# 

interface GigabitEthernet2/0/0 
ip address 192.1.1.1 255.255.255.0 
mpls 

# 


# 配 置 ASBR-PE1 与 PE1 建立 MP-iBGP 对 等 体 关 系 
bgp 100 
peer 192.1.1.2 as-number 200 
Peer 1.1.1.9 as-number 100 
peer 1.1.1.9 connect-interface LoopBack1l 
# 
ipv4-family unicast 
undo synchronization 
network 1.1.1.9 255.255.255.255 
peer 192.1.1.2 enable 
peer 192.1.1.2 route-policy policyl export 
peer 192.1.1.2 label-route-capability 
peer 1.1.1.9 enable 
peer 1.1.1.9 route-policy policy2 export 
Peer 1.1.1.9 label-route-capability 
# 
ipv4-family vpnv4 
policy vpn-target 
peer 1.1.1.9 enable #PE1 与 PE2 建立 MP-eBGP 对 等 体 关系 
. ， 
ospf 1 
area 0.0.0.0 
network 2.2.2.9 0.0.0.0 
network 172.1.1.0 0.0.0.255 
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-一 一 一 一 一 


PE2、ASBR-PE2 上 的 配置 分 别 与 PE 


— 
PE1 的 主要 配置 


qo wn 
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ipv4-family unicast 
undo Synchronization 
peer 4.4.4.9 enable 
六 
ipv4-family vpnv4 
policy vpn-target 
Peer 4.4.4.9 enable 
# 
ipv4-family vpn-instance vpnl 
import-route direct 
peer 10.1.1.1 as-number 65001 
# 
ospf 1 
area 0.0.0.0 
network 1.1.1.9 0.0.0.0 
network 172.1.1.0 0.0.0.255 


# 
ASBR-PE2 的 主要 配置 : 


# 
sysname ASBR-PE1 
# 
mpls lsr-id 2.2.2.9 
mpls 
lsp-trigger bgp-label-route 
# 
mpls ldp 
# 
interface GigabitEthernet1/0/0 
ip address 172.1.1.1 255.255.255.0 
mpls 
mpls ldp 
四 
interface GigabitEthernet2/0/0 : 
ip address 192.1.1.1 255.255.255.0 
mpls 
# 
interface LoopBackl 
ip address 2.2.2,9 255.255.255.255 
# 
bgp 100 
peer 192.1.1.2 as-number 200 
# 
ipv4-family unicast 
undo synchronization 
network 1.1.1.9 255.255.255.255 
peer 192.1.1.2 enable 
peer 192.1.1.2 route-policy policy1l export 
peer 192.1.1.2 label-route-capability 
# 
ospf 1 
import-route bgp 
area 0.0.0.0 
network 2.2.2.9 0.0.0.0 
network 172.1.1.0 0.0.0.255 
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其 | 
route-policy policyl permit node 1 
apply mpls-label 


# 
三 种 解决 方案 的 比较 
三 种 解决 方案 各 有 所 长 ， 应 用 哪 种 方案 具体 要 看 用 户 的 网 络 环 境 及 需求 来 定 ， 详 细 








的 比较 如 下 所 示 。 
2 | omonB | OptonG </ 
ASBR 间 交 换 的 路 由 类 型 客户 的 IPv4 路 由 VPNv4 路 由 公 网 IPv4 路 由 
Pe, IPv4 路 由 标签 (通过 
AS 之 间 是 否 需要 启用 LDP 否 否 
AS 之 间 是 否 需 要 启用 
VPNv4 路 由 在 哪里 维护 ASBR PE 或 RR 
适用 场景 一 般 用 于 国际 运营 | 同一 个 运营 商 中 的 不 | 同一 个 运营 商 中 的 不 
上 商 之 间 同 AS 之 间 同 AS 之 间 


8.4 ”思考 题 


问题 1: 华为 VRP 系统 默认 情况 触发 建立 LSP 的 策略 是 什么 ? 

问题 2; LDP 对 于 标签 的 发 布 和 管理 都 有 哪些 方法 ? 

问题 3: LDP 和 IGP 同步 解决 了 什么 问题 ? 

问题 4: 在 MPLS 域 的 边界 处 ， 华 为 设备 是 如 何 进行 报 文 处 理 的 ? 

问题 S: RD 和 RT 的 区 别 是 什么 ?各 有 什么 用 途 ? 

问题 6: 在 MPLS VPN 中 一 定 要 使 用 两 层 标签 来 传递 业务 吗 ? 一 个 标签 行 不 行 ? 
问题 7: 在 MPLS VPN 中 ， 如 果 想 让 两 个 不 同 的 VPN 作 单 向 互 访 ， 如 何 实现 ? 
问题 8: MPLS L3 VPN 的 用 户 如 果 有 上 Internet 的 需求 ， 如 何 实现 ? 

问题 9， 跨 域 的 MPLS L3VPN 有 哪些 解决 方案 ? 

问题 10: MPLS VPN 技术 中 用 到 了 哪儿 个 BGP 的 扩展 团体 属性 ? 
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第 九 章 
交换 技术 


本 章 介 绍 了 局 域 网 络 中 交换 技术 及 协议 ， 重 点 介绍 了 STP、RSTP 及 MSTP 协议 ,并 
分 析 了 各 种 生成 树 协 议 的 不 同 。 章 节 最 后 对 WAN 上 PPP 及 PPPoE 也 做 了 介绍 。 


本 章 包含 以 下 内 容 : 


© 华为 的 多 种 VLAN 技术 

@ STP/RSTP 收敛 算法 及 对 比 

© MSTP 原理 分 析 

@ STP 保护 技术 

© PPP/MultilinkPPP 和 PPPoE 技术 
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9.1 VLAN 


9.1.1 VLAN 基础 


1. 什么 是 VLAN 

VLAN (Virtual Local Area Network) 是 虚拟 局 域 网 的 缩写 ， 它 是 一 种 将 物理 局 域 网 
在 逻辑 上 划分 成 不 同 网 段 的 技术 ， 每 个 逻辑 网 段 〈 即 一 个 VLAN) 相当 于 一 个 小 型 局 域 网 ， 
在 同一 个 VLAN 内 的 设备 可 以 通过 传统 的 以 太 网 交换 技术 实现 通信 ， 而 不 受 物 理 位 置 的 约 
束 ; 不 同 VLAN 的 设备 之 间 的 通信 需要 通过 三 层 交 换 机 或 路 由 器 等 网 络 层 设备 才能 实现 。 

在 199%6 年 3 月 , IEEE 802.1Internetworking 委员 会 结束 了 对 VLAN 初期 标准 的 修订 
工作 。 后 来 IEEE 于 1999 年 颁布 了 用 于 标准 化 VLAN 实现 方案 的 802.1Q 协议 标准 草案 。 
802.1Q 的 出 现 打破 了 虚拟 局 域 网 依赖 于 单一 厂商 的 僵局 , 从 一 个 侧面 推动 了 VLAN 的 迅 
速 发 展 。 

2.， VLAN 的 作用 

(1) 有效 地 控制 广播 : 在 一 个 局 域 网 内 ， 如 果 主 机 数量 过 多 ， 容 易 造 成 广播 泛滥 ， 
带宽 和 主机 资源 浪费 严重 ;有 了 VLAN 后 ， 广 播 域 被 限制 在 一 个 VLAN 内 ， 广 播 流 量 
的 泛 洪 范围 减 小 ， 从 而 有 效 地 节省 了 带宽 和 系统 处 理 开 销 。 图 9-1 显示 了 一 个 局 域 网 划 
分 VLAN 前 后 的 对 比 。 





划分 VLAN 之 后 广播 流 的 传递 情况 
图 9-1 VLAN 隔离 了 广播 域 
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(2) 增强 局 域 网 的 安全 性 : 不 同 VLAN 的 主机 不 能 直接 通信 ， 使 用 VLAN 可 以 将 

交换 机 下 面 连接 的 不 同业 务 或 部 门 的 主机 进行 有 效 的 隔离 ， 通 过 广播 方式 泛 洪 的 病毒 也 

被 限制 在 一 个 VLAN 内 部 。 
(3) 提高 网 络 的 灵活 性 : 可 以 将 处 于 不 同 物理 位 置 的 设备 划分 到 同一 个 虚拟 工作 组 ， 

使 网 络 构 建 和 后 期 维护 更 加 方便 。 
(4) 增强 了 网 络 的 健 状 性 : 故障 被 限制 在 一 个 VLAN 内 ， 本 VLAN 内 的 故障 不 会 

影响 到 其 他 VLAN 的 正常 工作 。 


9.1.2 ” VLAN 原理 





1. VLAN 数据 帧 

一 个 交换 机 可 以 拥有 多 个 VLAN〔 比 如 华为 的 Sx7 系列 交换 机 最 多 可 以 有 4094 个 
VLAN)。 当 交换 机 收 到 数据 帧 时 需要 分 辨 出 这 是 哪个 VLAN 的 数据 帧 ， 以 便 做 出 相应 
的 转发 决定 。 所 以 需要 为 数据 帧 中 添加 VLAN 标识 信息 。 

VLAN 标识 采用 的 是 IEEE 802.1Q 的 正式 标准 ， 该 标准 是 在 基于 传统 以 太 网 数据 帧 
基础 之 上 定义 的 ， 在 其 源 MAC 地 址 字段 和 协议 类 型 字段 之 间 增 加 4 个 Byte 的 802.1Q 
Tag。 其 中 ， 数 据 帧 中 的 VID (VLAN ID) 字段 用 于 表示 该 数据 帧 所 属 VLAN， 数 据 帧 
只 能 在 所 属 VLAN 内 进行 传输 。 

传统 以 太 网 数据 帧 在 目的 MAC 地 址 和 源 MAC 地 址 之 后 是 代表 标识 上 层 协议 的 类 
型 字段 ， 如 图 9-2 所 示 。 


6Byte 6Byte 2Byte 46-1500Byte 4Byte 






图 9-2 Ethernet II 数据 由 
使 用 IEEE 802.1Q 协议 标准 插入 VLAN Tag 后 的 数据 帧 格式 ， 如 图 9-3 所 示 。 


6Byte 6Byte 4Byte 2Byte 46-1500Byte 4Byte 
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2Byte 3bit 1bit 12bit 
图 9-3 IEEE 802.1Q 数据 帧 


VLAN Tag 中 的 字段 解释 如 下 。 

VLAN 标签 包含 4 个 字段 : TPID、PRI、CFI、VID。 

TPID: 

全 称 是 Tag Protocol Identifier〈 标 签 协 议 标识 符 )， 该 字段 长 度 为 16bit， 用 来 表明 数 
据 帧 的 类 型 ， 华 为 系列 交换 机 中 取 值 为 协议 规定 的 0x8100， 表 示 该 帧 是 带 802.1Q 标签 
的 数据 ; 如 果 不 支持 802.1Q 的 设备 收 到 这 样 的 帧 , 会 将 其 丢弃 。 各 设备 厂商 可 以 自 定义 
该 字段 的 值 。 如 果 使 用 的 TPID 值 为 非 0x8100， 必 须 保证 两 个 交换 机 之 间 的 TPID 值 配 
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置 一 致 ， 这 样 才能 够 识别 对 方 发 出 的 数据 帧 ， 实 现 通 信 。 

PRI: 

Priority， 用 来 表示 数据 帧 的 802.1p 优先 级 ， 该 字段 长 度 为 3bit， 取 值 为 0 一 7。 在 应 
用 QoS 相关 技术 后 ， 交 换 机 的 端口 在 发 送 拥塞 后 优先 发 送 高 优先 级 值 的 数据 。 

CFIl: 

Canonical Format Indicator〈 标 准 格 式 指示 位 )， 用 于 指明 数据 帧 中 的 MAC 地 址 是 否 
为 标准 格式 ， 用 于 兼容 以 太 网 和 令 牌 环 网 。 该 字段 长 度 为 lbit，CFI 为 0 说 明 是 经 典 格 
式 ，CFI 为 1 表示 为 非 经 典 格式 。 用 于 区 分 以 太 网 帧 、FDDI (Fiber Distributed Digital 
Interface) 帧 和 令 牌 环 网 帧 。 在 以 太 网 中 ，CFI 的 值 为 0。 

VID: 

VLAN ID， 长 度 为 12bit， 表 示 该 帧 所 属 VLAN。VLAN ID 取 值 范围 是 0 一 4095。 
由 于 0 和 4095 为 协议 保留 取 值 ， 所 以 VLANID 的 有 效 取 值 范围 是 1 一 4094。 

一 般 来 说 ， 主 机 和 路 由 器 只 能 收发 不 带 VLAN 标签 的 数据 帧 ， 但 是 ， 随 着 VMware 
等 虚拟 化 技术 的 不 断 应 用 ， 支 持 虚 拟 化 技术 的 网 卡 需 要 支持 带 VLAN 标签 的 数据 帧 ， 以 
便 能 够 分 辨 数据 帧 是 属于 哪个 VLAN 中 的 虚拟 机 的 。 实 现 单 辟 路 由 技术 时 ,在 路 由 器 的 
以 太 网 接口 上 创建 的 子 接口 也 能 识别 VLAN 标签 。 交 换 机 支持 带 VLAN 标签 的 数据 帧 ， 
但 是 交换 机 的 接口 在 不 同 模式 下 对 VLAN 标签 的 处 理 方式 不 同 。 关于 交换 机 的 接口 类 型 
在 下 一 节 介 绍 。 此 外 ，IP 电话 、AP 等 设备 也 可 以 识别 VLAN 标签 。 

2，VLAN 接口 类 型 

为 适应 不 同 的 网 络 场景 和 需求 ， 华 为 交换 机 定义 了 三 种 接口 类 型 ， 分 别 是 Access 
接口 、Trunk 接口 和 Hybrid 接口 ， 这 三 种 接口 连接 的 对 象 以 及 对 收发 数据 帧 的 处 理 都 不 
同 。 下 面 分 别针 对 这 三 种 接口 的 作用 以 及 对 报 文 的 处 理 流程 进行 解析 。 

(1) Access 接口 

。 作用 : 

Access 接口 一 般 用 于 连接 不 支持 802.1Q 标签 的 主机 和 其 他 非 交换 机 设备 《比如 路 
由 器 、 防 火 墙 等 )， 或 者 在 不 需要 区 分 VLAN 成 员 的 场景 中 使 用 ， 连 接 的 链 路 类 型 为 接 
入 链 路 。 只 能 属于 某 一 个 VLAN， 并 且 发 送 的 数据 帧 不 带 标签 。 


报 文 的 VLAN ID 和 接口 缺 省 
报 文 带 标签 VLAN 相同 ， 则 接收 









接收 报 文 的 处 理 ”| 晤 


接收 并 为 报 文 打上 接口 的 缺 省 VLAN 







报 文 不 带 标签 


剥离 报 文 的 标签 ， 直 接 发 送 





发 送 报 文 的 处 理 ” 旧 


图 9-4 Access 端口 报 文 处 理 
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Trunk 接口 一 般 用 于 连接 交换 机 、AP 以 及 全 电话 等 ， 对 应 的 链 路 类 型 为 Trunk ( 干 
道 ) 链 路 ， 可 以 同时 承载 多 个 VLAN 的 数据 。 数 据 帧 在 通过 Trunk 链 路 传输 时 会 被 打上 
标签 ， 但 是 接口 缺 省 VLAN 的 数据 帧 通过 Trunk 链 路 时 不 带 标签 。 
。 ” 报 文 处 理 流程 : 


报 文 不 带 标签， 则 为 报 文 打上 接口 缺 省 VLAN 的 标签 、/ 人 可 二 人 于 ， 风机 







接收 报 文 的 处 理 }© 


报 文 的 VLAN 与 接 品 缺 省 VLAN 相同 ， 剥 离 标签 后 发 送 







发 送 报 文 的 处 理 |© 报 文 YLAN 被 接口 允许 ， 保 留 原 有 标签 ， 发 送 


el 报 文 VLAN 不 被 接口 允许 ， 则 丢弃 该 报 文 
图 9-5 ”Trunk 端口 报 文 处 理 






报 文 的 VLAN 与 接口 缺 省 VLAN 不 同 


(3) Hybrid 接口 

e 作用: 

Hybrid 接口 既 可 以 用 于 连接 不 支持 802.1Q 标签 的 设备 (如 主机 、HUB、 傻 瓜 交换 
机 等 ), 也 可 以 用 于 连接 交换 机 、 路 由 器 以 及 ?语音 电话 、 AP 等 。 它 可 以 允许 多 个 VLAN 
的 帧 以 带 标签 的 方式 通过 ， 也 可 以 允许 多 个 VLAN 的 帧 以 不 带 标签 的 方式 通过 。 对 应 的 
链 路 可 以 是 接 入 链 路 也 可 以 是 干道 链 路 。 

Hybrid 接口 和 Trunk 接口 的 特性 基本 相同 ， 这 两 种 接口 在 接收 数据 时 ， 处 理 方法 是 
一 样 的 ， 在 很 多 应 用 场景 下 可 以 通用 ， 唯 一 不 同 之 处 在 于 : 发 送 数 据 时 ，Hybrid 接口 可 
以 允许 多 个 VLAN 的 报 文 发 送 时 不 打 标 签 , 而 Trunk 接口 只 允许 缺 省 VLAN 的 报 文 发 送 
时 不 打 标 签 。 在 有 些 场景 下 必须 使 用 Hybrid 接口 ， 比 如 在 使 用 策略 划分 VLAN 的 网 络 
中 ， 交 换 机 的 一 个 接口 下 可 能 连接 了 多 台 属 于 不 同 VLAN 的 设备 ， 这 些 设备 发 的 数据 帧 
都 不 带 标签 ， 交 换 机 接收 后 需要 根据 策略 给 数据 帧 打上 不 同 VLAN 的 标签 ， 这 时 必须 要 
使 用 Hybrid 接口 。 

。 报 文 处 理 流程 : 

该 VLAN 被 接口 允许 ， 则 接收 

S 该 VLAN 不 被 接口 允许 ， 则 丢弃 


报 文 不 带 标签 ， 则 为 报 文 打上 接口 缺 省 VLAN 的 标签 













报 文 的 VLAN 与 接口 缺 省 VLAN 不 同 、 
“人 报 文 VLAN 不 被 接口 允许 , 直接 丢弃 


图 9-6 Hybrid 端口 报 文 处 理 


9.1.3 划分 VLAN 的 方式 
可 以 根据 不 同 的 方式 为 VLAN 划分 和 定义 成 员 ， 华 为 交换 机 支持 以 下 五 种 划分 
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VLAN 的 方法 : 基于 端口 、 基 于 MAC 地 址 、 基 于 IP 地 址 、 基 于 协议 和 基于 策略 的 划分 。 

(1) 基于 端口 划分 VLAN 

e 原理 : 

根据 以 太 网 交换 机 的 端口 编号 来 划分 VLAN， 可 以 将 交换 机 的 单个 或 多 个 接口 划分 
到 某 一 个 VLAN, 这 些 接口 可 以 不 连续 , 甚至 可 以 位 于 不 同 的 交换 机 上 ; 交换 机 的 Access 
接口 只 能 被 划分 到 一 个 VLAN 中 , 而 Trunk 和 Hybrid 接口 可 以 被 划分 到 多 个 VLAN 中 ; 
缺 省 情况 下 ， 交 换 机 所 有 接口 都 被 划分 在 VLAN 1 中 。 

当 一 个 数据 帧 进入 交换 机 时 ， 如 果 没 有 带 VLAN 标签 ， 该 数据 帧 就 会 被 打上 接口 缺 
省 VLAN 的 标签 ， 然 后 数据 帧 将 在 该 缺 省 VLAN 中 传输 。 如 果 数 据 帧 带 VLAN 标签 ， 
则 比较 该 VLAN 和 接口 的 缺 省 VLAN， 如 果 一 样 则 接收 ， 否 则 丢弃 。 

e 特点: 

这 种 划分 VLAN 的 方法 定义 成 员 比 较 简 单 ， 接 口 的 配置 也 比较 固定 ， 网 络 的 运 维 和 
管理 很 方便 。 缺 点 是 当 更 换 设 备 后 需要 在 新 的 设备 上 重新 配置 端口 ， 移 动 性 支持 不 好 。 

e ”应 用 场景 及 典型 配置 : 

这 种 划分 VLAN 的 方式 适用 于 网 络 设备 位 置 比较 固定 的 组 网 环境 中 ， 如 图 9-7 所 示 。 
某 企业 的 交换 机 连接 有 很 多 用 户 ， 且 相同 业务 用 户 通 过 不 同 的 设备 接 入 企业 网 络 。 为 了 
通信 的 安全 性 ， 同 时 为 了 避免 广播 风暴 ， 企 业 希 望 业务 相同 的 用 户 之 间 可 以 互相 访问 ， 
业务 不 同 的 用 户 不 能 直接 访问 。 可 以 在 交换 机 上 配置 基于 端口 划分 VLAN， 把 连接 相同 
业务 用 户 的 接口 划分 到 同一 VLAN。 这 样 SWI SW2 
属于 不 同 VLAN 的 用 户 不 能 直接 进行 二 层 
通信 ， 同 一 VLAN 内 的 用 户 可 以 直接 互相 





通信 。 
如 图 9-7 所 示 ， 在 SW1 创建 VLAN2 
和 VLAN3, 并 将 连接 用 的 接 品 分 别 加 Userl User3 User2 User4 
入 VLAN。SW2 的 配置 与 SW1l 类 似 ， 不 再 VLAN2 VLAN3 VLAN2 VLAN3 
歼 述 。 图 9-7 基于 接口 划分 VLAN 的 组 网 图 
<HUAWEI> system-view 


[HUAWEI] sysname SWI1 

[SWI1] vlan batch 2 3 

[SW1] interface gigabitethernet 0/0/1 

[SW1-GigabitEthernet0/0/1] port link-type access 

[SW1-GigabitEthernet0/0/1] port default vlan 2 

[SW1-GigabitEthernet0/0/1] quit 

[SW!1] interface gigabitethernet 0/0/2 

[SW1-GigabitEthernet0/0/2] port link-type access 

[SWI1-GigabitEthernet0/0/2] port default vlan 3 

[SW1-GigabitEthernet0/0/2] quit 

(2) 基于 MAC 地 址 划分 VLAN 

@ 原理 : 

这 种 方法 是 根据 设备 的 MAC 地 址 来 划分 VLAN， 所 以 需要 预先 配置 好 MAC 地 址 
和 VLAN 的 对 应 关系 。 当 交换 机 收 到 一 个 不 带 VLAN 标签 的 数据 帧 时 ， 根 据 该 数据 帧 


的 源 MAC 地 址 查找 源 MAC 地 址 和 VLAN 的 映射 表 ， 找 到 对 应 的 VLAN， 然 后 为 该 数 
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据 帧 打上 相应 VLAN 的 标签 并 做 进一步 处 理 。 当 交换 机 收 到 带 有 标签 的 数据 帧 时 ， 处 理 
方法 跟 基 于 端口 划分 VLAN 的 方式 是 一 样 的 。 

。 特点: 

这 种 划分 方法 的 优点 是 当 设备 在 不 同 物理 位 置 间 移 动 时 〈 比 如 设备 从 交换 机 当前 的 
接口 移动 到 其 他 接口 ， 或 移动 到 其 他 交换 机 )， 不 需要 重新 配置 VLAN。 这 种 方法 的 缺 
点 是 在 网 络 初始 化 配置 时 , 需要 收集 所 有 用 户 的 MAC 地址, 然后 做 MAC 地 址 到 VLAN 
的 映射 关系 配置 。 如 果 用 户 数量 大 ， 配 置 工作 量 很 大 。 使 用 这 种 方法 也 会 降低 网 络 的 性 
能 ， 因 为 在 交换 机 的 一 个 接口 上 可 能 存在 多 个 VLAN 用 户 ， 单 接口 可 能 需要 转发 多 个 
VLAN 的 广播 流量 ， 导 致 广播 流量 占用 过 多 的 网 络 资源 。 另 外 ， 网 络 中 使 用 移动 设备 的 
用 户 越 来 越 多 ， 他 们 不 停 地 更 换 移动 设备 导致 MAC 地 址 不 断 地 变化 ， 从 而 需要 频繁 地 
更 新 VLAN 的 配置 。 

e ”应 用 场景 及 典型 配置 : 

这 种 方法 适用 于 位 置 经 常 移动 但 网 卡 不 经 常 更 换 的 小 型 网 络 ， 如 移动 PC。 另 外 , 华 
为 交换 机 的 voice VLAN 是 基于 MAC 地 址 划分 VLAN 的 一 种 实现 ， 设 备 可 以 根据 进入 
接口 的 数据 报 文中 的 源 MAC 地 址 字段 来 判断 该 数据 流 是 否 为 语音 数据 流 ， 如 果 是 语音 
数据 流 ， 那 么 将 由 voice VLAN 做 进一步 处 理 。 

当 某 个 公司 的 网 络 中 ， 网 络 管理 者 将 同一 部 门 的 员工 划分 到 同一 VLAN。 为 了 提高 
部 门 内 的 信息 安全 ， 要 求 只 有 本 部 门 员工 的 PC 才 可 以 访问 公司 网 络 。 下 面 显示 了 一 个 
基于 MAC 地 址 划分 VLAN 的 应 用 场景 及 其 配置 。 

如 图 9-8 所 示 , PC1、PC2、PC3 为 本 部 门 员 工 的 PC, 要 求 这 几 台 PC 可 以 通过 Switch 
访问 公司 网 络 ， 如 换 成 其 他 PC 则 不 能 访问 。 要 实现 该 需求 , 可 以 配置 基于 MAC 地 址 划 
分 VLAN， 将 本 部 门 员 工 PC 的 MAC 地 址 与 VLAN 绑 定 ， 从 而 实现 需求 。 
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VLAN 10 
图 9-8 基于 MAC 地 址 划分 VLAN 的 组 网 图 
交换 机 的 配置 如 下 : 


# 创建 VLAN 
<HUAWEI> system-view 


i G16 


| 第 九 章 交换 技术 | 


[HUAWEI] sysname Switch 

[Switch] vlan batch 10 

# 配置 接口 加 入 VLAN。GE0/0/3、GE0/0/4 的 配置 与 GE0/0/2 类 似 ， 不 再 鳌 述 
[Switch] interface gigabitethernet 0/0/1 
[Switch-GigabitEthernet0/0/1] port link-type hybrid 
[Switch-GigabitEthernet0/0/1] port hybrid tagged vlan-10 
[Switch-GigabitEthernetO/O/1] quit l 
[Switch] interface gigabitethernet 0/0/2 
[Switch-GigabitEthernet0/0/2] port link-type hybrid 
[Switch-GigabitEthernet0/0/2] port hybrid untagged vlan 10 
[Switch-GigabitEthernet0/0/2] quit 

#PC 的 MAC 地 址 与 VLAN10 关联 

[Switch] vlan 10 

[Switch-vlan10] mac-vlan mac-address 22-22-22 
[Switch-vlan10] mac-vlan mac-address 33-33-33 
[Switch-vlan10] mac-vlan mac-address 44-44-44 
[Switch-vlan10] quit 

# 使 能 接口 的 基于 MAC 地 址 划分 VLAN 功能 ，GE0/0/3、GE0/0/4 的 配置 与 GE0/0/2 类 似 ， 不 再 效 述 
[Switch] interface gigabitethernet 0/0/2 
[Switch-GigabitEthemet0/0/2] mac-vlan enable 
[Switch-GigabitEthernet0/0/2] quit 


(3) 基于 子 网 划分 VLAN 

® 原理 : 

这 种 方法 是 根据 数据 帧 中 的 源 人 P 地 址 和 子 网 掩 码 来 划分 VLAN, 所 以 交换 机 需要 能 
够 检查 到 数据 帧 中 的 网 络 层 信息 ， 但 并 不 是 根据 路 由 表 来 划分 VLAN, 而 是 根据 人 P 地 址 
和 VLAN 的 对 应 关系 表 来 划分 VLAN。 当 交换 机 收 到 的 是 不 带 标签 的 数据 帧 ， 就 依据 该 
表 给 数据 帧 添加 指定 VLAN 的 标签 。 然 后 数据 帧 将 在 指定 VLAN 中 传输 。 如 果 收 到 的 
是 带 有 标签 的 数据 帧 时 ， 处 理 方法 跟 基于 端口 划分 VLAN 的 方式 是 一 样 的 。 

。 特点: 

这 种 方法 和 上 一 种 方法 一 样 , 当 用 户 设备 的 
物理 位 置 发 生 改 变 , 只 要 不 改变 他 地 址 , 就 不 需 
要 重新 划分 VLAN, 减轻 了 配置 任务 , 利于 管理 。 
这 种 方法 的 缺点 是 当 用 户 数 量 大 而 且 用 户 的 位 
置 分 布 没 有 规律 时 ，IP 地 址 和 VLAN 间 映 射 关 
系 的 规划 和 配置 比较 麻烦 。 另 外 ， 因 为 这 种 方法 
需要 交换 机 检查 每 一 个 数据 包 的 网 络 层 地 址 ， 所 
以 需要 消耗 一 定 的 处 理 时 间 和 系统 资源 开销 ， 如 
果 用 户 流量 很 大 ， 会 导致 交换 机 性 能 下 降 。 

e 应 用 场景 和 典型 配置 : 

这 种 方法 适用 于 对 安全 需求 不 高 、 对 移动 性 
和 简易 管理 需求 较 高 的 场景 中 。 比 如 , 一 台 了 PC 配 
置 多 个 也 地址 分 别 访问 不 同 网 段 的 服务 器 ， 以 及 
PC 切换 正 地址 后 要 求 VLAN 自动 切换 等 场景 。 











二 用 户主 机 多 媒体 终端 电话 机 
图 9-9 所 示 为 一 个 应 用 基于 子 网 划分 19216812/24 192168.22/24 192.168.3.2/24 


VLAN 方法 的 应 用 场景 和 相关 配置 例子 。 图 9-9 基于 IP 划分 VLAN 的 组 网 图 
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交换 机 的 配置 如 下 : 

创建 VLAN 

# 在 Switch 上 创建 YLAN100、VLAN200 和 VLAN300。 

<HUAWEI> system-view 

[HUAWEI] sysname Switch 

[Switch] vlan batch 100 200 300 

配置 接口 

# 在 Switch 上 配置 接口 GE0/0/1 为 Hybrid 类 型 ， 分 别 以 Untagged 方式 加 入 VLAN100、VLAN200 和 VLAN300。 并 
使 能 基于 卫 子 网 划分 VLAN 功能 

[Switch] interface gigabitethernet 0/0/1 

[Switch-GigabitEthernet0/0/1] port link-type hybrid 

[Switch-GigabitEthernet0/0/1] port hybrid untagged vlan 100 200 300 

[Switch-GigabitEthernetO/0/1] ip-subnet-vlan enable 

[Switch-GigabitEthernet0/0/1] quit 

# 在 Switch 上 配置 接口 GE0/0/2 为 Trunk 类 型 ， 分 别 以 Tagged 方式 加 入 VLAN100、VLAN200 和 VLAN300 

[Switch] interface gigabitethernet 0/0/2 

[Switch-GigabitEthernet0/0/2] port link-type trunk 

[Switch-GigabitEthernet0/0/2] port trunk allow-pass vlan 100 200 300 

[Switch-GigabitEthernetO/0/2] quit 

配置 基于 IP 子 网 划分 VLAN 

# 在 Switch 上 配置 VLAN100 与 人 地址 192.168.1.2/24 关联 ， 优 先 级 为 2 

[Switch] vlan 100 

[Switch-vlan100] ip-subnet-vlan 1 ip 192.168.1.2 24 priority 2 

[Switch-vlan100] quit 

# 在 Switch 上 配置 VLAN200 与 下地 址 192.168.2.2/24 关联 ， 优 先 级 为 3 

[Switch] vlan 200 

[Switch-vlan200] ip-subnet-vlan 1 ip 192.168.2.2 24 priority 3 

[Switch-vian200] quit 

# 在 Switch 上 配置 VLAN300 与 IP 地址 192.168.3.2/24 关联 ， 优 先 级 为 4 

[Switch] vlan 300 

[Switch-vlan300] ip-subnet-vlan 1 ip 192.168.3.2 24 priority 4 

[Switch-vlan300] quit 

(4) 基于 协议 划分 VLAN 

@ 原理 : 

这 种 方法 根据 数据 帧 所 属于 的 协议 〈 族 ) 类 型 及 封装 格式 来 划分 VLAN。 交 换 机 根 
据 以 太 网 数据 帧 头 中 的 类 型 字段 来 辨别 该 数据 的 类 型 ， 比 如 以 太 网 类 型 值 为 0x0800， 那 
么 这 是 个 全 报 文 , 以 太 网 类 型 值 为 0x0806 的 是 ARP 报 文 。 和 前 两 种 方法 一 样 ， 这 种 方 
法 需要 预先 配置 好 协议 类 型 和 VLAN 的 映射 表 。 交 换 机 如 果 收 到 的 是 不 带 标签 的 帧 ， 就 
依据 该 表 给 数据 帧 添加 指定 VLAN 的 标签 。 然 后 数据 帧 将 在 指定 VLAN 中 传输 。 如 果 
收 到 的 是 带 有 标签 的 数据 帧 时 ， 处 理 方 法 跟 基于 端口 划分 VLAN 的 方式 是 一 样 的 。 

。 特点: 

这 种 方法 可 以 将 不 同 服务 类 型 的 流量 关联 到 指定 的 VLAN， 方 便 对 于 各 种 业务 或 控 
制 流量 的 区 分 和 管理 。 但 是 需要 对 网 络 中 所 有 的 协议 类 型 和 VLAN ID 的 映射 关系 表 进 
行 初始 配置 。 需 要 分 析 各 种 协议 的 格式 并 进行 相应 的 转换 ， 从 而 消耗 交换 机 较 多 的 资源 ， 
转发 效率 上 稍 具 劣势 。 

e ”应 用 场景 和 典型 配置 : 

适用 于 运行 的 业务 类 型 比较 多 的 网 络 场景 中 ， 利 用 这 种 方法 可 以 很 方便 地 管理 各 种 
业务 流量 。 下 面 介绍 了 一 个 使 用 该 方法 划分 VLAN 的 应 用 场景 和 配置 例子 。 
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某 企业 拥有 多 种 业务 ， 如 IPTV、VoIP、Internet 等 ， 每 种 业务 所 采用 的 协议 各 不 相 
同 。 为 了 便于 管理 ， 现 需要 将 同一 种 类 型 业务 划分 到 同一 VLAN 中 ,不 同类 型 的 业务 划 
分 到 不 同 VLAN 中 。 
如 图 9-10 所 示 ，Switch 收 到 的 用 户 报 文 有 多 种 业务 ， 所 采用 的 协议 各 不 相同 。 
VLAN10 中 的 用 户 采用 IPv4 协议 与 远 端 用 户 通信 ， 而 VLAN20 中 的 用 户 采 用 IPv6 协议 
与 远 端 服务 器 通信 。 现 需要 将 不 同类 型 的 业务 划分 到 不 同 的 VLAN 中 ,通过 不 同 的 VLAN 
ID 分 流 到 不 同 的 远 端 服务 器 上 以 实现 业务 互通 。 


Voice 
Network 





VLAN 20 
9-10 ”基于 协议 划分 VLAN 的 组 网 图 


交换 机 Switch 的 配置 如 下 ，Switch2 和 Trunk 链 路 的 配置 这 里 不 再 著述 。 
# 在 Switchl 上 配置 VLAN 
<HUAWEI> system-view 
[HUAWEI] sysname Switchl 
[Switch1] vlan batch 10 20 
， 配 置 基于 协议 划分 VLAN 
# 在 Switchl 上 配置 VLAN10 与 协议 IPv4 关联 
[Switch1] vlan 10 
[Switchl-vlan10] protocol-vlan ipv4 
[Switchl-vlan10] quit 
# 在 Switchl 上 配置 YLAN20 与 协议 IPv6 关联 
[Switch1] vlan 20 
[Switch1-vlan20] protocol-vlan ipv6 
[Switch1-vlan20] quit 
配置 接 日 关联 协议 VLAN 
# 在 Switchl 上 配置 接口 GE0/0/2 与 VLAN10 关联 ， 优 先 级 是 5 
[Switch1] interface gigabitethernet 0/0/2 
[Switch1-GigabitEthernetO/0/2] protocol-vlan vlan 10 all priority 5 
[Switch1-GigabitEthemet0/0/2] quit 
# 在 Switchl 上 配置 接口 GE0/0/3 与 VLAN20 关联 ， 优 先 级 是 6 
[Switch1] interface gigabitethernet 0/0/3 
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[Switch1-GigabitEthernet0/0/3] protocol-vlan vlan 20 all priority 6 

[Switch1-GigabitEthernetO/0/3] quit 

配置 接口 

# 在 Switchl 上 配置 接口 GE0/0/1 允许 VLAN10 和 VLAN20 通过 

[Switch1] interface gigabitethernet 0/0/1 

[Switch1-GigabitEthernetO/0/1] port link-type trunk 

[Switch1-GigabitEthernet0/0/1] port trunk allow-pass vlan 10 20 

[Switch1-GigabitEthernet0/0/1] quit 

# 在 Switchl 上 配置 接口 GE0/0/2 以 untagged 方式 允许 VLAN10 通过 

[Switch1] interface gigabitethernet 0/0/2 

[Switch1-GigabitEthernet0/0/2] port link-type hybrid 

[Switch1-GigabitEthernet0/0/2] port hybrid untagged vlan 10 

[Switch1-GigabitEthernet0/0/2] quit 

# 在 Switchl 上 配置 接口 GE0/0/3 以 untagged 方式 允许 VLAN20 通过 

[Switch1] interface gigabitethernet 0/0/3 

[Switch1-GigabitEthernet0/0/3] port link-type hybrid 

[Switch1-GigabitEthernet0/0/3] port hybrid untagged vlan 20 

[Switch1-GigabitEthernet0/0/3] quit 

# 在 Switch 上 配置 接口 GE0/0/1 允许 VLAN10 和 VLAN20 通过 

<HUAWEI> system-view 

[HUAWEI] sysname Switch 

[Switch] interface gigabitethernet 0/0/1 

[Switch-GigabitEthernetO/O/1] port link-type trunk 

[Switch-GigabitEthernet0/0/1] port trunk allow-pass vlan 10 20 

[Switch-GigabitEthernet0/0/1] quit 

# 在 Switch 上 配置 接口 GE0/0/2 允许 YLAN10 通过 

[Switch] interface gigabitethernet 0/0/2 

[Switch-GigabitEthernet0/0/2] port link-type trunk 

[Switch-GigabitEthernetO/0/2] port trunk allow-pass vlan 10 

[Switch-GigabitEthernet0/0/2] quit 

# 在 Switch 上 配置 接口 GE0/0/3 允许 VLAN20 通过 

[Switch] interface gigabitethernet 0/0/3 

[Switch-GigabitEthernet0/0/3] port link-type trunk 

[Switch-GigabitEthernet0/0/3] port trunk allow-pass vlan 20 

[Switch-GigabitEthernet0/0/3] return 

(5) 基于 策略 划分 VLAN 

。 原理 : 

这 种 方法 是 根据 多 种 划分 VLAN 方式 的 组 合 而 产生 的 ， 这 里 的 策略 主要 包括 “基于 
MAC 地 址 +IP 地 址 ”组 合 策略 和 “基于 MAC 地 址 +IP 地 址 + 端口 ”两 种 组 合 策略 。 基 于 
MAC 地 址 、IP 地 址 、 接 口 组 合 的 策略 划分 VLAN 是 指 在 交换 机 上 绑 定 终端 的 MAC 地 
址 和 IP 地 址 或 接口 ， 并 与 VLAN 关联 。 只 有 符合 条 件 的 终端 才能 加 入 指定 VLAN。 符 
合 策略 的 终端 加 入 指定 VLAN 后 , 严禁 修改 IP 地 址 或 MAC 地 址 , 甚至 都 不 能 改变 接 入 
的 交换 机 端口 ， 否 则 会 导致 终端 从 指定 VLAN 中 退出 ， 无 法 访问 网 络 中 的 资源 。 

网 络 管理 员 预 先 配置 策略 ， 如 果 收 到 的 是 不 带 标签 的 帧 ， 且 匹配 配置 的 策略 时 ， 给 
数据 帧 添加 指定 VLAN 的 标签 ， 然 后 数据 帧 将 在 指定 的 VLAN 中 传输 。 如 果 收 到 的 是 
带 有 标签 的 数据 帧 ， 处 理 方式 和 基于 端口 划分 的 VLAN 一 样 。 

。 特点 : 

对 于 安全 程度 要 求 较 高 的 网 络 中 ， 应 用 这 种 VLAN 的 划分 方法 ， 可 以 防止 用 户 擅自 
修改 设备 的 地 址 ， 导 致 管理 难度 加 大 。 使 用 地 址 加 端口 的 绑 定 方式 ， 还 可 以 避免 未 经 授 
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权 的 用 户 擅自 接 入 网 络 ， 给 网 络 的 安全 带 来 隐患 。 但 是 这 种 方法 需要 人 工 做 地 址 和 端口 
的 绑 定 ， 当 用 户 数量 多 的 时 候 ， 配 置 比 较 复 杂 。 

。 应 用 场景 和 典型 配置 

这 种 方法 一 般 用 对 安全 性 要 求 较 高 的 网 络 ， 尤 其 是 需要 严格 审查 接 入 设备 合法 性 的 网 络 
《比如 银行 内 部 的 办 公 网 )。 下 面 给 出 一 个 使 用 该 方法 划分 VLAN 的 应 用 场景 和 配置 例子 。 

如 图 9-11 所 示 ， 某 企业 内 部 办 公 网 SWI SW2 
的 网 络 拓扑 ， 现 要 把 Userl (MAC 地 址 
为 1-1-1, IP 地 址 为 1.1.1.1) 绑 定 在 SW1 
的 GE1/0/1 端口 上 ; 把 User2 (MAC 地 
址 为 2-2-2, IP 地 址 为 2.2.2.2) 绑 定 在 SW2 
的 GE1/0/1 端口 上 ， 并 把 它们 划分 到 





y Userl User3 User2 User4 
VLAN 2 中 ;把 User3(MAC 地 址 为 3-3-3， WiRN 人 0 
IP 地 址 为 3.3.3.3 ) 绑 定 在 SW1 的 GE1/0/2 图 9-11 基于 策略 划分 VLAN 的 组 网 图 


端口 上 ; 把 User4 (MAC 地 址 为 4-4-4， 
IP 地 址 为 4.4.4.4) 绑 定 在 SW2 的 GE1/0/2 端口 上 ， 并 把 它们 划分 到 VLAN 3 中 。 


下 面 给 出 交换 机 SW1 的 配置 ，SW2 的 配置 跟 SW1 相似 ， 这 里 不 再 闭 述 。 

# 他 | 建 所 需 的 策略 协议 VLAN 2 和 VLAN 3 

< HUAWEI] > system-view 

< HUAWEI >sysname SwitchA 

[SwitchA] vlan batch 2 3 

# 配 置 MAC 地 址 、 IP 地 址 和 交换 机 端口 组 合 策略 与 以 上 策略 VLAN 的 关联 , 并 为 两 个 协议 VLAN 设置 不 同 的 802.1q 
的 优先 级 值 

[SwitchA] vlan 2 

[SwitchA—vlan2] policy-vlan mac-address 1-1-1 ip 1.1.1.1 gigabitEthernet1/0/1 

priority 7 

[SwitchA—vlan2] quit 

[SwitchA] vlan 3 

[SwitchA-vlan20] policy-vlan mac-address 3-3-3 ip 3.3.3.3 gigabitEthernet1/0/2 

priority $ 

[SwitchA-vlan20] quit 

# 配 置 交换 机 端口 类 型 并 允许 对 应 的 策略 VLAN 通过 

[SwitchA] interface gigabitethernet 1/0/1 

[SwitchA-GigabitEthernet1/0/1] port link-type hybrid 

| [SwitchA-GigabitEthernet1/0/1] port hybrid Untagged vlan 2 

[SwitchA-GigabitEthermet1/0/1] quit 

[SwitchA] interface gigabitethernet 1/0/2 

[SwitchA-GigabitEthermetl/0/2] port link-type trunk 

[SwitchA-GigabitEthernetl/0/2] port trunk allow-pass vlan 3 

[SwitchA-GigabitEthernet1/0/2] quit 


9.1.4 VLAN 扩展 应 用 


9.1.4.1 VLAN 聚合 

1 庆生 省 过 

在 局 域 网 络 中 ， 为 控制 广播 域 和 增强 网 络 的 安全 性 ,广泛 使 用 了 VLAN 技术 。 一般 
来 说 ， 不 同 VLAN 之 间 的 二 层 通信 会 被 拒绝 ， 为 实现 三 层 通信 ， 每 个 VLAN 都 需要 有 
自己 的 卫 子 网 和 网 关 ， 随 着 网 络 中 VLAN 数量 的 增加 ， 会 导致 大 量 的 IP 地 址 浪费 。 因 
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为 对 于 每 个 子 网 来 说 , 子 网 号 、 子 网 定向 广播 地 址 、 子 网 缺 省 网 关 地 址 都 不 能 用 作 VLAN 
内 的 主机 IP 地 址 ， 且 子 网 中 实际 接 入 的 主机 可 能 少 于 编 址 数 ， 多 出 来 的 IP 地 址 也 会 因 
不 能 再 被 其 他 VLAN 使 用 而 被 浪费 掉 。 为 了 解决 上 述 问 题 ，VLAN 聚合 应 运 而 生 。 下 面 
显示 了 某 企 业 为 各 部 门 制定 的 VLAN 及 IP 地 址 分 配 表 。 


亲 T ”让 疝 | 同 关 本 用 上 由 | 部 门 设 和 站 
市 场 | VIAN3 | Imi6l16n9 | 172i6117 | 5 | 
多 再 | VIAN4 | 1721612430 | 17216125 | 1 | 


上 表 显 示 了 各 VLAN 的 地 址 规划 情况 。VLAN 2 预计 未 来 要 有 10 个 主机 ， 给 其 分 
配 一 个 掩 码 长 为 28 的 子 网 一 一 172.16.1.0 /28。 该 网 段 的 子 网 号 172.16.1.0 和 子 网 定向 广 
播 地 址 172.16.1.15 以 及 子 网 缺 省 网 关 地 址 172.16.1.1 都 不 能 作为 主机 地 址 ， 剩 下 的 13 
个 地 址 可 以 被 主机 使 用 。 这 样 ， 尽 管 VLAN 2 只 需要 10 个 地 址 就 可 以 满足 需求 了 ， 但 
是 按照 子 网 划分 却 要 分 给 它 的 13 个 地 址 。VLAN 3 预计 未 来 有 5 个 主机 地 址 需求 ， 至 少 
需要 分 配 一 个 29 位 掩 码 的 子 网 (172.16.1.16 /29) 才能 满足 要 求 。VLAN 4 只 有 1 台 主 
机 ， 则 占用 子 网 172.16.1.24 /30。 

这 样 ，VLAN 2 子 网 就 会 浪费 3 个 全 地址。 同时 ，VLAN 2 子 网 的 实际 需求 只 有 10 
个 ， 剩 余 的 3 个 也 不 能 再 被 其 他 VLAN 使 用 。 当 网 络 中 的 VLAN 越 多 ， 浪 费 的 IP 地 址 
也 就 越 多 。 

2. 实现 原理 

VLAN 聚合 定义 了 两 层 VYLAN: Super-VLAN 和 Sub-VLAN。 每 个 Sub-VLAN 对 应 
一 个 广播 域 ，Super-VLAN 是 Sub-VLAN 的 上 级 VLAN， 一 个 Super-VLAN 可 以 和 多 个 
Sub-VLAN 进行 关联 , 而 且 只 需要 给 Super-VLAN 分 配 一 个 卫 子 网 , 所 有 Sub-VLAN 共 
用 Super-VLAN 的 卫 子 网 和 缺 省 网 关 〈 也 就 是 Super-VLAN 的 VLANIF 接口 ) 进行 三 层 

， 通信。 这 样 ， 由 于 多 个 Sub-VLAN 共享 一 个 网 关 地 址 ， 减 少 了 子 网 号 、 子 网 定向 广播 地 

址 、 子 网 缺 省 网 关 地 址 的 消耗 ， 并 且 在 给 Sub-VLAN 分 配 IP 地 址 时 ， 是 基于 整个 
Super-VLAN 〈 相 当 于 一 个 大 VLAN) 的 主机 需求 来 规划 的 ， 不 会 造成 Sub-VLAN 的 地 
址 浪费 。 这 样 既 保 证 了 每 一 个 Sub-VLAN 作为 一 个 独立 的 广播 域 实现 广播 隔离 ， 又 节省 
了 IP 地 址 资源 ， 提 高 了 编 址 的 灵活 性 。 

(1) Super-VLAN 

Super-VLAN 作为 上 层 VLAN， 为 底下 各 个 Sub-VLAN 创建 三 层 接口 (VLANIF)， 
从 而 保障 各 个 Sub-VLAN 之 间 及 与 外 网 的 三 层 通信 。 但 是 Super-VLAN 不 属于 任何 物理 
接口 ， 而 判定 Super-VLAN 的 VLANIF 接口 状态 是 否 为 Up， 不 是 依赖 于 物理 接口 的 状 
态 判定 ， 而 是 依赖 于 它 所 包含 的 Sub-VLAN 中 是 否 存在 Up 的 物理 接口 ， 存 在 就 Up。 

(2) Sub-VLAN 

Sub-VLAN 是 最 终 为 主机 提供 接 入 功能 的 VLAN (也 就 是 说 它 可 以 包含 物理 接口 )， 
但 是 Sub-VLAN 不 能 创建 三 层 接口 (VLANIF)， 只 是 用 来 对 用 户 二 层 隔离 (或 者 叫 隔离 
广播 域 )。Sub-VLAN 不 能 占用 一 个 独立 的 子 网 网 段 。 在 同一 个 Super-VLAN 中 , 无 论 主 
机 属于 哪 一 个 Sub-VLAN， 它 的 下 地 址 都 在 Super-VLAN 对 应 的 子 网 网 段 内 。 
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Super-VLAN 和 Sub-VLAN 之 间 的 关 
系 ， 如 图 9-12 所 示 。VLAN 10 作为 一 个 
Super-VLAN, 底下 包含 了 3 个 Sub-VLAN， 
3 台 主 机 属于 不 同 的 Sub-VLAN， 实 现 了 二 
层 隔 离 , 但 是 它们 都 采用 了 同一 个 子 网 中 的 
地 址 (VLAN10 的 子 网 ), 并 且 共 享 VLAN10 六 pe Te NT ER \ 
的 VLANIF 接口 IP 地 址 作为 网 关 。 






Super VLAN 10 
VLANIF10:1.1.1.1/24 


I 
ep PCl 让 PC2 和 PC3 

3. Sub-VLAN 的 通信 IP 1.1.1.10/24 1 IP 1.1.1.20/24 1 IP 1.1.1.30/24 
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型 VLAN 的 功能 和 特点 , 比如 Super-VLAN ” 图 9-12 Super-VLAN 与 Sub-VLAN 的 关系 
不 能 包含 在 任何 物理 链 路 上 ，Sub-VLAN 不 能 创建 VLANIF 接口 ， 所 以 造成 了 在 部 署 了 
Super-VLAN 技术 的 场景 中 VLAN 通信 的 特殊 性 。 比 如 Sub-VLAN 之 间 如 何 进行 三 层 通 
言 ， 以 及 Sub-VLAN 如 何 访 问 到 外 部 网 络 进 行 二 、 三 层 通信 等 。 下 面 就 几 种 Sub-VLAN 
的 通信 情况 进行 详细 介绍 。 

(1) 各 Sub-VLAN 间 三 层 通 信 

VLAN 聚合 在 实现 不 同 VLAN 共用 同一 子 网 网 段 地 址 的 同时 , 也 给 Sub-VLAN 间 的 
三 层 转发 带 来 了 问题 。 普 通 VLAN 中 ， 不 同 VLAN 内 的 主机 可 以 通过 各 自 不 同 的 网 关 
进行 三 层 互 通 。 但 是 Super-VLAN 中 ， 所 有 Sub-VLAN 内 的 主机 使 用 的 是 同一 个 网 段 的 
地 址 ， 共 用 同一 个 网 关 地 址 ， 主 机 只 会 做 二 层 转发 ， 而 不 会 送 网 关 进 行 三 层 转发 。 而 实 
际 上 , 不 同 Sub-VLAN 的 主机 在 二 层 是 相互 隔离 的 ， 这 就 造成 了 Sub-VLAN 间 无 法 通信 
的 问题 。 解 决 这 一 问题 的 方法 就 是 使 用 VLAN 间 Proxy ARP。 

如 图 9-13 所 示 , 假设 Sub-VLAN2 内 的 主机 Host_1 与 Sub-VLAN3 内 的 主机 Host 2 
要 通信 ， 在 Super-VLAN10 的 VLANIF 接口 上 启用 Proxy ARP。 


Super-VLAN10 
SW1 VLANIF10:10.1.1.1/24 
Se VLAN 间 ARP Proxy 





PCI1 PC2 PC3 
Sub-VLAN2 Sub-VLAN3 Sub-VLAN4 
10.1.1.2/24 10.1.1.12/24 10.1.1.17/24 


图 9-13 Sub-VLAN 之 间 三 层 通信 组 网 图 


PC1 与 PC2 的 通信 过 程 如 下 (假设 PC1 的 ARP 表 中 无 PC2 的 对 应 表 项 )。 

Q@ PC1 将 PC2 的 下 地 址 《10.1.1.12) 和 自己 所 在 网 段 10.1.1.0/24 进行 比较 ， 发 现 
PC2 和 自己 在 同一 个 子 网 ， 但 是 PC1 的 ARP 表 中 无 PC2 的 对 应 表 项 。 

@ PC1 发 送 ARP 广播 报 文 ， 请 求 PC2 的 MAC 地 址 ， 目 的 他 为 10.1.1.12。 
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@ 网 关 SW1 收 到 PC1 的 ARP 请 求 ， 由 于 网 关上 使 能 Sub-VLAN 间 的 Proxy ARP， 
开始 使 用 报 文中 的 目的 IP 地 址 在 路 由 表 中 查找 ,发现 匹配 了 一 个 路 由 ， 下 一 跳 为 直 连 网 
段 (VLANIF10 的 10.1.1.0/24)。VLANIF10 对 应 Super-VLAN10， 则 向 Super-VLAN10 
的 所 有 Sub-VLAN 接口 发 送 一 个 ARP 广播 ， 请求 PC2 的 MAC 地 址 。 
@ PC2 收 到 网 关 SW1 发 送 的 ARP 广播 后 ， 对 此 请 求 进 行 ARP 应 答 。 
@ 当 网 关 SW1 收 到 PC2 的 应 答 之 后 ， 就 把 自己 的 MAC 地 址 当 作 PC2 的 MAC 地 
址 回应 给 PC1。 
@) 当 PC1 再 次 发 送 报 文 给 PC2 时 ， 首 先 把 报 文 发 送 给 网 关 SW1， 由 网 关 SW1 做 










三 层 转发 。 VLANIF20 
PC2 发 送 报 文 给 PC1 的 过 程 和 上 述 PC1 发 送 报 。 一 J] 
文 给 PC2 的 过 程 类 似 ， 这 里 就 不 再 著述 。 ee ee 
(2) Sub-VLAN 与 其 他 网 络 的 三 层 通信 VLANIFI0 1012224 
如 图 9-14 所 示 ， 用 户主 机 与 服务 器 处 于 不 同 的 。 ”ms SupervLAN4 
网 段 中 ，SW1 上 配置 了 Sub-VLAN2、Sub-VLAN3、 Sn a 
Super-VLAN4 和 普通 的 VLAN10，SW2 上 配置 了 普 
通 的 VLAN10 和 VLAN20。 
假设 Sub-VLAN2 下 的 主机 PC1 想 访 问 与 SW2 
相连 的 Server， 报 文 转发 流程 如 下 假设 SW1 上 已 PC1 PC2 


配置 了 去 往 10.1.2.0/24 网 段 的 路 由 ，SW2 上 已 配置 “M2 Sob yA 
了 去 往 10.1.1.0/24 网 段 的 路 由 , 但 两 交换 机 没有 任何 ”图 9-14 Sub-VLAN 与 其 他 网 络 的 
三 层 转 发 表 项 )。 三 层 通信 组 网 图 
。 PC1 将 Server 的 IP 地 址 (10.1.2.2)〉 和 自己 所 在 网 段 10.1.1.0/24 进行 比较 ， 发 
现 和 自己 不 在 同一 个 子 网 , 发送 ARP 请 求 给 自己 的 网 关 SW1, 请 求 网 关 的 MAC 
地 址 ， 目 的 MAC 为 全 F， 目 的 也 为 10.1.1.1。 
。 SW1 收 到 该 请 求 报 文 后 ， 查 找 Sub-VLAN 和 Super-VLAN 的 对 应 关系 ,知道 应 
该 回应 Super-VLAN4 对 应 的 VLANIF4 的 MAC 地 址 ， 并 知道 从 Sub-VLAN2 
的 接口 回应 给 PC1。 
。 PC1 学 习 到 网 关 SW1 的 MAC 地 址 后 ， 开 始 发 送 目的 MAC 为 Super-VLAN4 
对 应 的 VLANIF4 的 MAC 地 址 、 目 的 卫 为 10.1.2.2 的 报 文 。 
。 SW1 收 到 该 报 文 后 ,根据 Sub-VLAN 和 Super-VLAN 的 对 应 关系 以 及 目的 MAC 
判断 进行 三 层 转发 ， 查 三 层 转 发 表 项 没有 找到 匹配 项 ， 上 送 CPU 查找 路 由 表 ， 
得 到 下 一 跳 地 址 为 10.1.10.2， 出 接口 为 VLANIF10， 并 通过 ARP 表 项 和 MAC 
表 项 确定 出 接口 ， 把 报 文 发 送 给 SW2。 
。 SW2 根据 正常 的 三 层 转发 流程 把 报 文 发 送 给 Server。 
Server 收 到 PC1 的 报 文 后 给 PC1 回应 ， 回 应 报 文 的 目的 卫 为 10.1.1.2， 目 的 MAC 
为 SW2 上 VLANIF20 接口 的 MAC 地址 ， 回 应 报 文 的 转发 流程 如 下 。 
e Server 给 PC1 的 回应 报 文 按照 正常 的 三 层 转发 流程 到 达 SW1。 到 达 SW1 时 ， 
报 文 的 目的 MAC 地址 为 SW1 上 VLANIF10 接口 的 MAC 地 址 。 
。 SW1 收 到 该 报 文 后 根据 目的 MAC 地 址 判断 进行 三 层 转发 ， 查 三 层 转发 表 项 没 
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有 找到 匹配 项 ， 上 送 CPU 查 路 由 表 ， 发 现 目的 卫 为 10.1.1.2 对 应 的 出 接口 为 
VLANIF4， 查 找 Sub-VLAN 和 Super-VLAN 的 对 应 关系 ， 并 通过 ARP 表 项 和 
MAC 表 项 ， 知 道 报 文 应 该 从 Sub-VLAN2 的 接口 发 送 给 PC1。 

e 回应 报 文 到 达 PC1。 

(3) Sub-VLAN 与 其 他 设备 的 二 层 通信 

以 图 9-15 所 示 组 网 为 例 , 介绍 Sub-VLAN 内 主机 与 其 他 设备 的 二 层 通信 情况 。SW1l 
上 配置 了 Sub-VLAN2、Sub-VLAN3 和 Super-VLAN4,SW1 的 耻 1 和 正 2 配置 为 Access 
接口 ，IF_3 接口 配置 为 Trunk 接口 ， 并 允许 VLAN2 和 VLAN3 通过 ; Switch_2 连接 
Switch_1 的 接口 配置 为 Trunk 接口 ， 并 允许 VLAN2 和 VLAN3 通过 。 

从 PC1 进入 SW1 的 报 文 会 被 打上 VLAN2 的 Tag。 在 SW1 中 ， 这 个 Tag 不 会 因为 
VLAN2 是 VLAN4 的 Sub-VLAN 而 变 为 VLAN4 的 Tag。 该 报 文 从 SW1 的 Trunk 接 口 IF 3 
发 送出 去 时 ， 依 然 是 携带 VLAN2 的 Tag。 也 就 是 说 ，SW1 本 身 不 会 发 送出 VLAN4 的 
报 文 。 就 算 其 他 设备 有 VLAN4 的 报 文 发 送 到 该 设备 上 ， 这 些 报 文 也 会 因为 SW1 上 没有 
VLAN4 对 应 的 物理 接口 而 被 丢弃 。 因 为 SW1 的 IF _3 接口 上 根本 就 不 允许 Super-VLAN4 
通过 。 对 于 其 他 设备 而 言 ， 有 效 的 VLAN 只 有 Sub-VLAN2 和 Sub-VLAN3， 所 有 的 报 文 
都 是 在 这 些 VLAN 中 交互 的 。 

这 样 ，SW1 上 虽然 配置 了 VLAN 聚合 ， 但 与 其 他 设备 的 二 层 通 信 ， 不 会 涉及 到 
Super-VLAN， 流 程 与 正常 的 二 层 通 信 流 程 一 样 ， 此 处 不 再 著述 。 

4. 应 用 场景 及 典型 配置 示例 

某 公 司 拥 有 多 个 部 门 且 位 于 同一 网 段 ， 为 了 提升 业务 安全 性 ， 将 不 同 部 门 的 用 户 划 
分 到 不 同 VLAN 中 ， 如 图 9-16 所 示 ，VLAN2 和 VLAN3 属于 不 同 部 门 。 各 部 门 均 有 访 
问 Internet 需求 ， 同 时 由 于 业务 需要 ， 不 同 部 门 间 的 用 户 需 要 互通 。 






Trunk 
Allowed VLAN=2, 3 


Super-VLAN4 
VLANIF4 
10.1.1.1/24 


PC1 PC2 





Sub-VLAN2 Sub-VLAN3 
10.1.1.2/24 10.1.1.12/24 
图 9-15 ”Sub-VLAN 与 其 他 设备 的 二 层 通信 组 网 图 图 9-16 VLAN 聚合 组 网 图 
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交换 机 SW1 和 SW2 的 配置 步骤 如 下 。 
(1) 配置 VLAN 和 接口 ， 将 不 同 部 门 用 户 划分 到 不 同 VLAN 中 ， 并 透 传 各 VLAN 


到 SW2。 


【配置 SW11]: 
# 配置 接口 GE0/0/1 为 Aceess 类 型 。 接 口 GE0/0/2、GE0/0/3、GE0/0/4 的 配置 与 GE0/0/1 类 似 ， 不 再 装 述 
<HUAWEI> system-view 
[HUAWEI] sysname SW1 
[SW1] interface gigabitethernet 0/0/1 
[SWI1-GigabitEthernet0/0/1] port link-type access 
[SW1-GigabitEthernet0/0/1] quit 
# 创建 VLAN2 并 向 VLAN2 中 加 入 GE0/0/1 和 GE0/0/2 
[SW1] vlan 2 
[SW1-vlan2] port gigabitethernet 0/0/1 0/0/2 
[SW1-vlan2] quit 
# 创建 VLAN3 并 向 VLAN3 中 加 入 GE0/0/3 和 GE0/0/4 
[SWI1] vlan 3 
[SW1-vlan3] port gigabitethernet 0/0/3 0/0/4 
[SW1-vlan3] quit 
# 配置 SW1 连接 SW2 的 接口 ， 透 传 VLAN2 和 VLAN3 到 SW2 
[SWI1] interface gigabitethernet 0/0/5 
[SW1-GigabitEthernet0/0/5] port link-type trunk 
[SW1-GigabitEthernet0/0/5] port trunk allow-pass vlan 2 3 
[SW1-GigabitEthernet0/0/5] quit 

【配置 SW27: 

# 创建 VLAN2、VLAN3、VLAN4、VLAN10， 并 配置 SW2 连接 SW1 的 接口 ， 使 VLAN2 和 VLAN3 透 传 到 SW2 
<HUAWEI> system-view 

[HUAWEH sysname SW2 

[SW2] vlan batch 23 4 10 

[SW2] interface gigabitethernet 0/0/5 

[SW2-GigabitEthernet0/0/5] port link-type trunk 

[SW2-GigabitEthernet0/0/5] port trunk allow-pass vlan 2 3 

[SW2-GigabitEthernet0/0/5] quit 


- 配置 Super-VLAN 及 其 对 应 的 VLANIF 接口 
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# 在 SW2 上 配置 Super-VLAN 4， 并 将 VLAN2、VLAN3 加 入 到 Super-VLAN 4， 作 为 其 Sub-VLAN 
[SW2] vlan 4 

[SW2-vlan4] aggregate-vlan 

[SW2-vlan4] access-vlan 2 to 3 

[SW2-vlan4] quit 

# 创建 并 配置 VLANIF4， 使 不 同 部 门 的 用 户 可 通过 Super-VLAN 4 访问 Internet 
[SW2] interface vlanif 4 

[SW2-Vlanif4] ip address 10.1.1.1 255.255.255.0 

[SW2-Vlanif4] quit 

配置 上 行路 由 

# 在 SW2 上 配置 上 行 接口 GE0/0/1， 透 传 SW2 与 出 口 网 关 Router 的 互联 VLAN 
[SW2] interface gigabitethernet 0/0/1 

[SW2-GigabitEthernet0/0/1] port link-type trunk 

[SW2-GigabitEthernet0/0/1] port trunk allow-pass vlan 10 

[SW2-GigabitEthernet0/0/1] quit 

# 创建 并 配置 VLANIF10， 指 定 其 他 地 址 为 SW2 与 出 口 网 关 Router 对 接 的 人 地址 
[SW2] interface vlanif 10 

[SW2-Vlanif10] ip address 10.10.1.1 255.255.255.0 

[SW2-Vlanif10] quit 

# 在 SW2 上 配置 一 条 到 出 口 网 关 Router 的 缺 省 静态 路 由 ， 使 用 户 能 够 访问 Internet 
[SW2] ip route-static 0.0.0.0 0.0.0.0 10.10.1.2 
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(2) 配置 用 户 IP 地 址 。 

分 别 为 各 用 户 配 置 了 了 地 址 ， 并 使 它们 和 VLAN4 处 于 同一 网 段 。 这 里 不 再 给 出 关于 
Router 的 IP 地 址 配置 。 

配置 成 功 后 ， 各 部 门 用 户 可 以 访问 Intemet， 但 VLAN2 的 用 户 与 VLAN3 的 用 户 间 
不 可 以 相互 Ping 通 。 

(3) 配置 VLAN 间 Proxy ARP。 

# 在 SW2 的 Super-VLAN 4 下 配置 VLAN 间 Proxy ARP， 使 不 同 部 门 的 用 户 人 三民 本 通 

[SwitchB] interface vlanif 4 

[SwitchB-Vlanif4] arp-proxy inter-sub-vlan-proxy enable 

[SwitchB-Vlanif4] quit = 

(4) 验证 配置 结果 。 

配置 完成 后 ，VLAN2 的 用 户 与 VLAN3 的 用 户 可 以 相互 Ping 通 ， 且 都 可 以 访问 
Internet。 

9.1.4.2 Mux VLAN 

t。 产 符 背 腑 

网 络 中 有 时 候 需 要 对 不 同 用 户 进行 网 络 隔离 ， 以 增强 网 络 的 安全 。 比 如 服务 商 的 
IDC， 针 对 不 同 的 客户 托管 的 服务 器 需要 进行 网 络 隔离 ， 传 统 的 做 法 是 为 每 个 客户 分 配 
一 个 VLAN。 但 这 样 做 有 很 多 缺点 ， 比 如 交换 机 的 VLAN 数量 会 受到 挑战 (华为 交换 机 
最 多 支持 4094 个 VLAN)，VLAN 越 多 ， 配 置 和 管理 也 越 复 杂 。 

MUX VLAN (Multiplex VLAN) 就 是 一 种 利用 VLAN 来 控制 网 络 资源 访问 的 技术 。 
该 技术 既 实现 了 网 络 隔 离 , 又 节省 了 VLAN。 并且 在 访问 控制 上 具有 很 灵活 的 配置 方案 。 
可 以 利用 MUX VLAN 技术 有 效 地 保障 用 户 数 据 的 安全 ， 同 时 抑制 病毒 的 泛滥 ， 帮 助 用 
户 更 好 地 优化 网 络 性 能 。 

2. 实现 原理 

MUX VLAN 定义 了 两 级 VLAN: Principal VLAN ( 主 VLAN) 和 Subordinate VLAN 
(辅助 VLAN/ 从 VLAN)，Subordinate VLAN 又 分 为 Separate VLAN〔 隔 离 型 YLAN) 和 
Group VLAN (互通 型 VLAN)。 

一 个 主 VLAN 可 关联 多 个 从 VLAN， 在 关联 的 从 VLAN 中 可 以 包含 多 个 互通 型 
VLAN， 但 是 只 能 有 一 个 隔离 型 VLAN。 

主 VLAN 和 从 VLAN 都 能 拥有 自己 的 端口 ， 主 VLAN 中 的 端口 称 为 Principal Port 
( 主 端口 )， 隔 离 型 VLAN 中 的 端口 称 为 Separate Port〔( 隔 离 端 口 )， 互 通 型 VLAN 中 的 
端口 称 为 Group Port( 组 端口 )。 要 注意 的 是 ， 这 些 端口 只 能 拥有 一 个 VLAN， 而 且 必 须 
是 Access 或 Hybrid untagged 类 型 的 , 如 果 Trunk 端口 或 端口 上 有 多 个 VLAN, 是 不 能 启 
用 MUX VLAN 功能 的 。 

主 端口 、 隔 离 端口 和 组 端口 之 间 的 通信 规则 如 下 。 

。 主 端 口 可 以 和 MUX VLAN 内 的 所 有 端口 进行 通信 。 

。 隔离 端口 只 能 和 主 端口 进行 通信 , 和 其 他 类 型 的 端口 完全 隔离 ,即使 和 同 VLAN 

内 的 其 他 隔离 端口 也 完全 隔离 , 但 跨 设 备 在 同 Separate VLAN 内 是 可 以 通信 的 
。 组 端口 可 以 和 主 端 口 进行 通信 ,在 同一 组 VLAN 内 的 端口 也 可 互相 通信 ， 但 不 
能 和 其 他 组 VLAN 端口 或 隔离 端口 通信 , 但 跨 设 备 在 同 Group VLAN 内 是 可 以 
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通信 的 。 
3. 典型 配置 案例 
在 企业 网 络 中 ， 企 业 所 有 员工 都 可 以 访问 企业 的 服务 器 。 但 对 于 企业 来 说 ， 希 望 企 
业内 部 部 分 员工 之 间 可 以 互相 交流 ， 而 部 分 员工 之 间 是 隔离 的 ， 不 能 够 互相 访问 。 
如 图 9-17 所 示 ， 为 了 解决 上 述 问 题 ， 可 在 连接 终端 的 交换 机 上 部 署 MUX VLAN 特 
性 。MUX VLAN 不 但 能 够 实现 企业 需求 ， 同 时 也 解决 了 VLAN ID 紧缺 问题 ， 也 便于 网 
络 管理 者 维护 。 







Server 






VLAN2 
(Principal VLAN) 















HostB HostC 
VLAN3 (Group VLAN) 






HostD HostE 
VLAN4 (Separate VLAN) 


9-17 MUX VLAN 组 网 图 


交换 机 上 的 配置 步骤 如 下 。 

(1) 配置 MUX VLAN 

# 创建 VLAN2、VLAN3 和 VLAN4 

<HUAWEI> system-view 

[HUAWEI] sysname SW1 

[SW1] vlan batch 23 4 

# 配置 MUX VLAN 中 的 Group VLAN 和 Separate VLAN 
[SW1] vlan 2 

[SW1-vlan2] mux-vlan 

[SW1-vlan2] subordinate group 3 

[SW1-vlan2] subordinate separate 4 “ 

[SW1-vlan2] quit 

# 配置 接口 加 入 VLAN 并 使 能 MUX VLAN 功能 
[SW1] interface gigabitethernet 0/0/1 
[SW1-GigabitEthernet0/0/1] port link-type access 
[SW1-GigabitEthernet0/0/1] port default vlan 2 
[SW1-GigabitEthernet0/0/1] port mux-vlan enable vlan 2 
[SW1-GigabitEthernetO/O/1] quit | 
[SW1] interface gigabitethernet 0/0/2 
[SW1-GigabitEthernet0/0/2] port link-type access 
[SW1-GigabitEthernet0/0/2] port default vlan 3 
[SW1-GigabitEthernet0/0/2] port mux-vlan enable vlan 3 
[SW1-GigabitEthernet0/0/2] quit 

[SW1] interface gigabitethernet 0/0/3 
[SW1-GigabitEthemet0/0/3] port link-type access 


E 628 


| 第 九 章 交换 技术 | 


[SW1-GigabitEthemet0/0/3] port default vlan 3 
[SW1-GigabitEthernet0/0/3] port mux-vlan enable vlan 3 
[SW1-GigabitEthermnet0/0/3] quit 

[SW1] interface gigabitethernet 0/0/4 
[SW1-GigabitEthemet0/0/4] port link-type access 
[SW1-GigabitEthernet0/0/4] port default vlan 4 
[SW1-GigabitEthermet0/0/4] port mux-vlan enable vlan 4 
[SW1-GigabitEthernet0/0/4] quit 

[SW1] interface gigabitethernet 0/0/5 
[SW1-GigabitEthernet0/0/5] port link-type access 
[SW1-GigabitEthernet0/0/5] port default vlan 4 
[SW1-GigabitEthernet0/0/5] port mux-vlan enable vlan 4 
[SW1-GigabitEthernet0/0/5] quit 


(2) 检查 配置 结果 

Server 和 PC1、PC2、PC3、PC4 在 同一 网 段 。 

Server 和 PC1、PC2、PC3、PC4 二 层 流量 互通 。 

PC1 和 PC2 二 层 流 量 互通 。 

PC3 和 PC4 二 层 流量 不 通 。 

PC1、PC2 和 PC3、PC4 二 层 流 量 不 通 。 

4. MUX VLAN 如 何 设置 网 关 的 问题 

在 传统 的 VLAN 技术 实现 中 ，VLAN 用 户 通过 VLANIF 接口 来 实现 和 其 他 VLAN 
以 及 外 网 之 间 的 三 层 通信 ， 而 华为 Sx7 系列 交换 在 v2v3 版 本 之 后 才 新 增 Mux VLAN 支 
持 VLANIF 接口 的 功能 ， 之 前 的 版 本 不 支持 。 那 么 在 旧版 本 的 交换 机 上 如 何 让 MUX 
VLAN 用 户 能 访问 到 其 他 网 段 和 外 网 ? 这 里 为 读者 提供 如 下 两 种 方法 。 

(1) 使 用 上 级 路 由 器 或 三 层 接 口 作为 网 关 

如 图 9-17 所 示 ，VLAN 2 和 VLAN 3 作为 MUX VLAN 的 两 个 二 级 VLAN， 使 用 相 
同 的 子 网 。 这 里 的 交换 机 只 提供 二 层 交 换 功 能 ， 上 面 的 路 由 器 充当 三 层 交换 和 网 关 的 功 
能 。 根据 MUX VLAN 中 端口 的 访问 规则 ， 隔 离 型 VLAN 和 互通 型 VLAN 中 的 端口 都 可 
以 访问 主 VLAN 中 的 端口 ， 所 以 只 需要 将 交换 机 的 上 联 端 口 加 入 MUX VLAN 中 的 主 
VLAN (VLAN 4) 成 为 主 端口 后 ， 两 部 门 的 用 户 都 能 访问 到 网 关 了 。 

(2) 在 上 级 交换 机 使 用 VLAN 聚合 技术 

如 图 9-19 所 示 ， 把 图 9-18 的 上 级 路 由 器 换 成 一 台 三 层 交 换 机 ， 并 且 该 三 层 交 换 机 
的 物理 接口 不 支持 三 层 功 能 。 交 换 机 SW2 部 署 了 MUX-VLAN，VLAN 4 是 Principal 
VLAN，VLAN 2 和 VLAN 3 分 别 是 Group VLAN 和 Separate VLAN。 为 节省 IP 地 址 资 
源 ，VLAN 2 和 VLAN 3 共享 一 个 子 网 和 网 关 ， 因 为 MUX VLAN 无 法 创建 VLANIF 接 
口 ， 所 以 可 以 在 SW1 上 使 用 VLAN 聚合 技术 ， 将 VLAN 4 配置 成 Super-VLAN， 而 将 
VLAN 2 和 VLAN 3 配置 成 Sub-VLAN， 为 VLAN 4 创建 VLANIF 接口 并 配置 IP 地 址 ， 
该 接口 作为 底下 VLAN 2 和 VLAN 3 用 户 的 网 关 。 交 换 机 SW1 和 SW2 之 间 的 链 路 要 同 
时 允许 VLAN 2 和 VLAN 3 通过 。 

使 用 该 方案 不 但 能 够 让 Mux-VLAN 用 户 访 问 到 外 网 ， 还 可 以 让 不 同 的 Mux-VLAN 
之 间 互 通 。 但 是 使 用 该 方案 要 注意 的 一 个 问题 就 是 在 交换 机 SW2 的 上 联接 口 无 法 使 能 
Mux-VLAN 功能 , 因为 该 接口 允许 了 多 个 VLAN 通过 。 另外 一 个 注意 点 是 在 交换 机 SWI1 
的 下 联接 口 不 能 包含 Super VLAN。 如 果 这 时 在 SW1 上 将 VLAN4 的 VLANIF 接口 的 ARP 
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代理 功能 开启 , 会 导致 两 个 部 门 之 间 可 以 相互 通信 (读者 可 以 思考 一 下 为 什么 ), 这 与 用 
户 起 初 部 署 MUX-VLAN 的 目的 不 相符 。 


Router 圈 Super VLAN 4 
Sw S Sub VLAN 2, 3 


Principal VLAN 4 
Principal 





图 9-18 MUX VLAN 用 户 网 关 图 9-19 MUX VLAN 与 VLAN 聚合 结合 


9.1.4.3 Voice VLAN 

1. 产生 背景 

随 着 融合 网 络 技术 的 发 展 ， 卫 电话 、 移 动 设备 应 用 越 来 越 广泛 ， 导 致 网 络 经 常 要 同 
时 传输 数据 、 语 音 、 视 频 等 多 种 流量 。 如 果 链 路 带宽 小 ， 就 会 出 现 丢 包 和 时 延 现 象 ， 而 
用 户 对 语音 的 质量 比 数据 或 者 视频 的 质量 更 为 敏感 ， 因 此 在 带宽 有 限 的 情况 下 就 需要 优 
先 保证 通话 质量 。 通 过 配置 Voice VLAN， 交 换 机 可 识别 语音 流 ， 将 语音 流 加 入 到 Voice 
VLAN 中 传输 ， 并 对 其 进行 有 针对 性 的 QoS 保障 ， 当 网 络 发 生 拥 塞 时 可 以 优先 保证 语音 
流 的 传输 。 

2. 实现 原理 

车 要 提高 语音 数据 流 的 传输 优先 级 ， 首 先 要 能 识别 出 语音 数据 流 。 识 别 出 语音 数据 
流 后 , 再 对 语音 数据 流 提升 优先 级 后 传输 。Voice VLAN 可 以 通过 以 下 两 种 方式 来 实现 对 
语音 数据 流 的 识别 。 

(1) 通过 收 到 报 文 的 源 MAC 地 址 ， 即 基于 MAC 地 址 的 方式 

设备 可 以 根据 进入 接口 的 数据 报 文 中 的 源 MAC 地 址 字段 来 判断 该 数据 流 是 否 为 语 
音 数 据 流 。 源 MAC 地 址 匹配 系统 设置 的 语音 设备 的 组 织 唯 一 标识 符 OUI 
(Organizationally Unique Identifier) 的 报 文 被 认为 是 语音 数据 流 。 用 户 需要 预先 设置 OUL， 
适用 于 下 电话 上 发 送 untagged 语音 报 文 的 场景 。 

说 明 : 

OUI 指 的 是 MAC 地 址 的 前 24 位 (二进制)， 可 以 用 来 表示 一 个 MAC 地 址 段 ， 是 IEEE 
为 不 同 设备 供应 商 分 配 的 一 个 全 球 唯一 的 标识 符 ， 各 设备 厂商 再 从 这 个 地 址 段 中 分 配 24 
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位 ， 从 而 形成 48 位 的 MAC 地 址 。 所 以 根据 OUI 识别 IP 电话 的 原理 就 是 根据 IP 电话 厂商 
申请 的 MAC 地 址 段 来 识别 哪些 报 文 是 IP 电话 发 送 的 , 以 此 来 判断 哪些 报 文 属于 语音 报 文 。 
Voice VLAN 中 的 OUI 有 别 于 上 述 的 通常 意义 的 OUI， 这 个 OUI 是 由 用 户 来 配置 的 ， 而 
且 可 以 使 用 掩 码 ， 即 不 需要 一 定 是 24 位 掩 码 的 ， 掩 码 长 度 用 户 可 以 自己 指定 。OUI 的 值 
为 voice-vlan mac-address 命令 中 的 mac-address 和 mask 参数 相 与 的 结果 。 


。 实现 过 程 

如 图 9-20 所 示 , 交换 机 接收 到 PC 和 卫 Phone 发 出 的 untagged 报 文 后 会 做 如 下 处 理 ; 
如 果 源 MAC 匹配 交换 机 上 配置 OUI ( 源 MAC 地 址 与 配置 的 OUI 掩 码 进行 与 运算 后 等 
于 OUI 视 为 匹配 )， 则 为 该 报 文 加 上 Voice VLAN 的 Tag， 并 提升 报 文 优先 级 ; 如 果 不 匹 
配 ， 就 会 为 其 加 上 PVID 的 VLAN Tag， 从 而 保证 语音 报 文 的 优先 发 送 。 


数据 报 文 低 优先 级 的 数据 报 文 





PC IP Phone Switch 


语音 报 文 高 优先 级 的 语音 报 文 
9-20 ”基于 MAC 地 址 的 Voice VLAN 示意 图 


(2) 通过 报 文 携带 的 VLAN Tag， 即 基于 VLAN 的 方式 

若 有 大 量 IP 电话 接 入 交换 机 ， 配 置 IP 电话 的 OUI 就 可 能 会 非常 繁琐 。 可 在 交换 机 
上 配置 基于 VLAN 来 提升 语音 报 文 的 优先 级 , 此 时 设备 会 根据 进入 接口 的 报 文 的 VLAN 
ID 来 判断 该 数据 报 文 是 否 为 语音 报 文 。 当 VLAN ID 匹配 系统 配置 的 Voice VLAN 后 ， 
则 认为 是 语音 数据 流 。 这 种 方式 实现 的 前 提 是 IP 电话 支持 获取 交换 机 上 配置 的 Voice 
VLAN 信息 的 功能 ， 在 大 量 IP 电话 接 入 的 情况 下 ， 可 以 简化 配置 。 

。 ”实现 过 程 : 

基于 VLAN 的 Voice VLAN 实现 原理 为 : 交换 机 收 到 PC 和 IP Phone 发 来 的 报 文 后 ， 
会 判断 报 文 的 VLAN ID 与 接口 上 配置 的 Voice VLAN ID 是 否 相 同 ， 如 果 相 同 则 认为 此 
数据 流 为 语音 数据 流 并 提升 优先 级 ,PC 发 出 的 untagged 报 文 则 会 被 加 上 PVID 的 VLAN 
Tag。 因 此 基于 VLAN 的 Voice VLAN 需要 IP Phone 可 以 获取 交换 机 上 配置 的 Voice VLAN 
信息 。 

IPPhone 获取 交换 机 上 Voice VLAN 信息 的 方法 有 很 多 种 ， 下 面 以 IP Phone 通过 
LLDP 协议 获取 交换 机 Voice VLAN 信息 为 例 介 绍 一 下 实现 过 程 。 

如 图 9-21 所 示 ，IP 电话 上 线 会 主动 发 送 LLDP 报 文 ， 以 获取 交换 机 上 配置 的 Voice 
VLAN 信息 ; 交换 机 收 到 IP 电话 发 送 的 LLDP 报 文 ， 会 在 相关 字段 填充 Voice VLAN 
信息 发 给 他 电话 ; IP 电话 收 到 携带 Voice VLAN 信息 的 LLDP 报 文 后 ， 再 次 发 送 语音 
报 文 时 就 会 带 Tag 发 送 ;， 交换 机 收 到 带 Tag 的 语音 报 文 ， 如 果 Tag 和 交换 机 上 配置 的 
Voice VLAN 匹配 ， 则 为 其 提升 优先 级 后 转发 。 交 换 机 收 到 untagged 报 文 , 仍然 会 加 入 
到 PVID 所 在 的 VLAN 中 。 这 样 ， 当 发 生 网 络 拥塞 的 时 候 交 换 机 就 能 保证 语音 报 文 的 
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图 9-21 基于 VLAN 的 Voice VLAN 示意 图 


3. 典型 配置 案例 

(1) 配置 基于 MAC 地 址 的 Voice VLAN 示例 〈IP Phone 上 发 送 untagged 语音 报 文 ) 

如 图 9-22 所 示 ，SW2 下 行 连接 数据 业务 和 语音 业务 ，SW2 使 用 VLAN2 传输 语音 
报 文 ， 使 用 VLAN3 传输 数据 报 文 。IP Phone A 和 PC A 串 行 接 入 SW2，IP Phone B 单独 
接 入 SW2，IP Phone 发 送 的 都 是 untagged 语音 报 文 。 用 户 对 语音 质量 较 敏 感 ， 需 要 提高 
语音 数据 流 的 传输 优先 级 ， 以 保证 用 户 的 通话 质量 。 





IP Phone A 
MAC: 0003-6B00-0001 


Mask: fff-ff00-0000 
您 7 IP Phone C 您 7 


| IP Phone B 
MAC: 0003-6B00-0002 


a Mask: fFFF-fF00-0000 la 
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286E-D400-0001 


图 9-22 配置 基于 MAC 地 址 Voice VLAN 组 网 


交换 机 SW2 的 配置 如 下 ，SW1 的 配置 与 SW2 的 配置 类 似 ， 这 里 不 再 闭 述 。 
配置 SW2 的 VLAN 和 接口 : 


# 创建 VLAN 

<HUAWEI> system-view 

[HUAWEI] sysname SW2 

[SW2] vlan batch 2 3 

# 配置 接口 GE0/0/1 允许 通过 的 VLAN 

[SW2] interface gigabitethernet 0/0/1 
[SW2-GigabitEthermet0/0/1] port link-type hybrid 
[SW2-GigabitEthernet0/0/1] port hybrid pvid vlan 3 
[SW2-GigabitEthermet0/0/1] port hybrid untagged vlan 2 to 3 
[SW2-GigabitEthernet0/0/1] quit 

[SW2] interface gigabitethernet 0/0/2 
[SW2-GigabitEthernet0/0/2] port link-type hybrid 
[SW2-GigabitEthernet0/0/2] port hybrid untagged vlan 2 
[SW2-GigabitEthernet0/0/2] quit 
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【配置 OUI]: 

[SW2] voice-vlan mac-address 0003-6B00-0000 mask fffF-ff00-0000 

配置 接口 Voice VLAN 功能 ，GE0/0/2 的 配置 与 GE0/0/1 类 似 ， 不 再 奖 述 
[Switch] interface gigabitethernet 0/0/1 

[Switch-GigabitEthernet0/0/1] voice-vlan 2 enable include-untagged 
[Switch-GigabitEthernet0/0/1] voice-vlan remark-mode mac-address 
[Switch-GigabitEthernet0/0/1] quit 


【检查 配置 结果 了 下 
执行 命令 display voice-vlan 2 status， 查 看 Voice VLAN 的 配置 是 否 正确 
[Switch] display voice-vlan 2 status 


Voice VLAN Configurations: 
Voice VLAN ID ;2 
Voice VLAN status : Enable 


Voice VLAN 8021premark :6 
Voice VLAN dscp remark :46 


--------~---. 


Port Information: 








Port Add-Mode Tn -Mode Legacy PbyVLAN 


GigabitEthernet0/0/2 Manual Normal Disable Disable 
Enable 
GigabitEthernet0/0/1 Manual Normal Disable Disable 
Enable 


(2) 配置 基于 VLAN 的 Voice VLAN 示例 (IP Phone 上 发 送 带 Tag 语音 报 文 ) 

如 图 9-23 所 示 ，SW2 下 行 连接 数据 业务 和 语音 业务 ，SW2 使 用 VLAN2 传输 语音 报 
文 ， 使 用 VLAN3 传输 数据 报 文 。 IP Phone A 和 PC A 串 行 接 入 SW2, IP Phone B 单独 接 入 
SW2，IP Phone 支持 通过 LLDP 协议 获取 Voice VLAN 信息 ， 发 送 的 是 带 Tag 语音 报 文 。 
用 户 对 语音 通话 质量 较 敏感 ， 需 要 提高 语音 数据 流 的 传输 优先 级 ， 以 保证 用 户 的 通话 质量 。 
网 络 管理 员 同 时 管理 大 量 的 IP Phone， 希 望 能 使 用 尽 可 能 简单 的 配置 来 完成 以 上 需求 。 







IP Phone C 你 7 


IP Phone B | 


IP Phone A 





PCA PG 
图 9-23 配置 基于 VLAN 提升 优先 级 的 Voice VLAN 组 网 


交换 机 SW2 的 配置 如 下 ，SW1 的 配置 与 SW2 的 配置 类 似 ， 这 里 不 再 鳌 述 。 
【配置 Switch 的 YLAN 和 接口 】: 

# 创建 VLAN 

<HUAWEI> system-view 

[HUAWEI] sysname SW2 
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[SW2] vlan batch 2 3 

# 配置 接口 GE0/0/1 允许 通过 的 VLAN 

[SW2] interface gigabitethernet 0/0/1 
[SW2-GigabitEthernet0/0/1] port link-type hybrid 
[SW2-GigabitEthernet0/0/1] port hybrid pvid vlan 3 
[SW2-GigabitEthernet0/0/1] port hybrid untagged vlan 3 
[SW2-GigabitEthernet0/0/1] port hybrid tagged vlan 2 
[SW2-GigabitEthernet0/0/1] quit 

[SW2] interface gigabitethernet 0/0/2 
[SW2-GigabitEthernet0/0/2] port link-type hybrid 
[SW2-GigabitEthernet0/0/2] port hybrid tagged vlan 2 
[SW2-GigabitEthernet0/0/2] quit 

【使 能 LLDP】: 


[SW?2] lldp enable 

# 配 置 接口 Voice VLAN 功能 ，GE0/0/2 的 配置 与 GE0/0/1 类 似 ， 不 再 奖 述 
[SW?2] interface gigabitethernet 0/0/1 

[SW2-GigabitEthermet0/0/1] voice-vlan 2 enable 

[SW2-GigabitEthernet0/0/1] voice-vlan remark-mode vlan 
[SW2-GigabitEthernet0/0/1] quit 


【检查 配置 结果 】 


# 执 行 命令 display voice-vlan 2 status， 查 看 Voice VLAN 的 配置 是 否 正 确 
[Switch] display voice-vlan 2 status 


Voice VLAN Configurations: 
Voice VLAN ID 起 
Voice VLAN status : Enable 


Voice VLAN 8021premark :6 
VoiceVLAN dscp remark :46 


Port Information: 


Port Add-Mode Security-Mode Legacy PribyVLAN Untag 








GigabitEthernet0/0/2 Manual Normal Disable Enable 
Disable 
GigabitEthernetO/0/1 Manual Normal Disable Enable 
Disable 


注意 事项 : 

。 ”VLAN 1 不 能 指定 为 Voice VLAN。 

@ ”为 保证 各 种 功能 的 正常 使 用 , 请 为 Voice VLAN、 接口 的 缺 省 VLAN 分 配 不 同 的 VLAN ID。 
e 同一 时 刻 ， 一 个 接口 只 能 有 一 个 VLAN 被 设置 为 Voice VLAN。 

e ”使 能 Voice VLAN 功能 的 接口 不 允许 再 配置 VLAN Mapping、 VLAN Stacking 和 应 用 流 策略 。 
。 不 能 在 IP 电话 上 配置 VLAN ID 为 0。 


9.1.4.4 QIinQ 

技术 概述 

QinQ (802.1Q in 802.1Q)， 也 叫 VLAN 骨 套 。 目 前 很 多 厂商 的 网 络 设备 都 能 支持 这 
个 特性 , 但 是 叫 法 各 不 相同 ， 比 如 华为 叫 VLAN VPN， 思 科 叫 802.1Q Tunnel。 使 用 QinQ 
可 以 将 带 有 私 网 VLAN 标签 的 数据 再 封装 一 层 公 网 VLAN 标签 , 使 报 文 带 上 两 层 VLAN 
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标签 ， 外 部 是 运营 商 的 公 网 VLAN 标签 ， 内 层 是 用 户 的 私 网 标签 。 运 营 商 的 公 网 设备 
根据 外 层 VLAN 标签 进行 转发 ， 在 数据 转发 出 公 网 时 再 将 公 网 标签 剥离 掉 ， 实 现 用 户 
VLAN 数据 通过 运营 商 网 络 的 透明 传输 。 总 的 来 说 ， 该 技术 是 一 种 通过 运营 商 的 二 层 
骨干 网 将 用 户 的 局 域 网 实现 二 层 互 连 的 技术 ， 它 是 一 种 较为 简单 而 且 廉 价 的 二 层 VPN 
解决 方案 。 

运营 商 可 以 为 不 同 的 接 入 用 户 或 业务 分 配 不 同 的 公 网 VLAN， 从 而 隔离 不 同 的 用 户 
和 业务 ， 而 用 户 内 网 可 以 自由 规划 使 用 的 VLAN， 这 样 就 将 可 用 的 VLAN 数量 扩展 到 
4094X4094 个 。 对 于 运营 来 说 提升 了 可 用 的 VLAN 范围 ， 缓 解 了 VLAN 资源 日 益 不 够 
用 的 问题 。QinQ 内 外 层 VLAN 标签 也 可 以 代表 不 同 的 信息 ， 如 内 层 VLAN 标签 可 以 代 
表 用 户 ， 外 层 标 签 代表 业务 ， 更 利于 业务 的 部 署 。 此 外 ，QinQ 不 需要 任何 控制 协议 的 支 
持 ， 通 过 纯 手 工 配置 即 可 ， 而 且 只 需要 运营 商 的 网 络 边缘 设备 支持 QinQ, 运营 商 内 部 只 
需要 可 以 支持 802.1Q 的 设备 即 可 , 所 以 越 来 越 多 的 小 型 城 域 网 和 企业 网 都 倾向 于 使 用 该 
功能 构建 自己 的 VPN 网 络 。 

实现 原理 

(1) QinQ 报 文 封装 

QinQ 报 文 封装 是 指 在 原 有 报 文中 的 802.1Q 标签 外 面 再 加 上 一 层 802.1Q 标签 封装 ， 
如 图 9-24 所 示 。 


标准 802.1Q 以 太 网 帧 





SS 、N 
| ~、 、 
QinQ 以 太 网 帧 ”|! 外 层 标签 、、 内 层 标签 、 
| ”= Rd 


图 9-24 QinQ 报 文 格式 
图 9-25 显示 了 通过 WireShark 抓 取 的 QinQ 报 文 的 格式 。 


Ethernet II, Src: ee a a3 (54:89:98:ff:41:a3), Dst: HuaweiTe_82:70:37 (54:89:98:82:70:37) 
B02-18 VITEVaT LAN PRI: 0， ID; 
| Sy Va 剖 pe Best Effort (default) (0) | 

5 .。 = CFI: Canonical (0) 3 
| ia 0000 0110 0100 = ID: 100 外 层 标 签 
| Type: 802.1Q Virtual LAN (Ox8100) 
502. 1Q LAN, PRI: 0, 








0 NE 
en = priority: a rs (default) (0) | 

ws = CFI: Canonical (0) ep 

| 0000 0000 1010 = ID: 10 内 层 标签 





Type: IP (Ox0800) | 
Internet Prorocol, Src: 172.16.1.4 (172,.16.1.1), Ost: 172.16.1.2 (172.16.1.2) 


Internet Control Message Prorocol 


图 9-25 ”QinQ 报 文 格式 


(2) QinQ 报 文 转发 过 程 

如 图 9-26 所 示 ， 显 示 了 通过 QinQ 隧道 转发 用 户 报 文 的 基本 过 程 。 

现 有 两 个 客户 (A 和 B) 通过 QinQ 隧道 实现 二 层 局 域 网 络 的 互 连 。VLAN 100 和 
VLAN 200 是 运营 商 网 络 中 的 公 网 VLAN。 在 运营 商 网 络 的 边缘 交换 机 上 使 用 VLAN 100 
来 标识 客户 A，VLAN200 标识 客户 B。 下 面 以 客户 B 的 B-1 站 点 和 B-2 站 点 之 间 的 通 
信 为 例 ， 说 明 一 下 QinQ 报 文 的 报 文 转发 过 程 。 
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PC1 客户 B-1SW3 





图 9-26 ”QinQ 报 文 转发 过 程 


。 ” 当 客 户 B-1 访问 客户 B-2 的 报 文 到 达 运 营 商 边缘 交换 机 (SW1) 的 Tunnel 端口 
时 ， 边 缘 交 换 机 给 客户 B-1 的 报 文 打上 一 个 外 层 标签 “VLAN200)。 其 运营 商 
边缘 交换 机 (SW1) 学 习 客户 B-1 的 MAC 地 址 ，SW1 上 MAC 地 址 表 映 射 关 
系 为 客户 B-1 的 MAC 地 址 与 VLAN 200 的 映射 。 
。 ” 当 客 户 B-1 的 数据 报 文 从 SW1 传递 到 另 一 侧 的 边缘 交换 机 (SW2) 的 过 程 当中 ， 
公 网 内 部 的 交换 机 都 是 按照 VLAN200 来 转发 该 报 文 的 ， 数 据 包 不 会 被 转发 到 
其 他 VLAN 中 。 
。 当 客 户 B-1 访问 客户 B-2 的 报 文 到 达 另 外 一 侧 的 边缘 交换 机 (SW2) 时 ， 在 离 
开 运 营 商 网 络 时 再 剥离 掉 外 层 的 标签 ， 转 发 到 客户 B-2 的 网 络 ， 从 而 实现 一 个 
简单 二 层 VPN 功能 。 
QinQ 实现 方式 
QinQ 的 实现 方式 可 分 为 以 下 两 种 : 基本 QinQ 和 灵活 QinQ。 
(1) 基本 QinQ 
基本 QinQ 是 基于 端口 实现 的 。 在 端口 被 配置 成 为 QinQ 的 隧道 模式 后 ， 当 该 端口 接 
收 到 报 文 ， 不 论 报 文 是 否 带 有 VLAN 标签 ， 设 备 都 会 为 该 报 文 打上 本 端口 缺 省 VLAN 
的 标签 。 
。 ”如 果 接 收 到 的 是 已 经 带 有 VLAN 标签 的 报 文 ， 该 报 文 就 会 成 为 具有 双 标 签 的 
报 文 。 
。 ”如 果 接 收 到 的 是 不 带 VLAN 标签 的 报 文 ， 该 报 文 只 会 被 带 上 端口 缺 省 VLAN 
标签 的 报 文 。 
基本 QinQ 简单 ， 但 是 不 能 灵活 地 为 用 户 或 业务 选取 外 层 VLAN 标签 。 
下 面 介绍 一 个 利用 基本 QinQ 进行 组 网 的 应 用 场景 案例 。 
如 图 9-27 所 示 ， 某 企业 在 两 个 不 同 的 地 方 各 有 站 点 ， 每 个 站 点 划分 成 三 个 网 络 ， 分 
别 为 财务 、 营 销 及 其 他 。 为 了 保证 网 络 的 安全 ， 要 求 财务 、 营 销 及 其 他 三 个 网 络 只 能 访 
问 自己 内 部 网 络 ， 而 三 个 网 络 之 间 是 不 能 相互 访问 的 。 
运营 商 在 MPLS/IP 核心 网 采用 VPLS 技术 ， 在 ME (Metro Ethernet) 网 络 采 用 简单 
实用 的 基本 QinQ 方式 ， 每 个 站 点 规划 三 个 VLAN， 代 表 财 务 、 营 销 及 其 他 ，VLAN ID 
分 别 为 100、200 和 300, 在 UPE 上 基于 接口 封装 一 个 外 层 VLAN 1000 (两 侧 可 以 不 同 )， 
配置 NPE 上 的 VSI 为 对 称 模式 , 则 不 同 站 点 之 间 只 有 相同 VLAN 内 的 用 户 才 可 以 通信 。 
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Outside: VLAN 1000 Inside: VLAN 100 Outside: VLAN 1000 Inside: VLAN 100 
Outside: VLAN 1000 Inside: VLAN 200 Outside: VLAN 1000 Inside: VLAN 200 
Outside: VLAN 1000 Inside: VLAN 300 QOutside: VLAN 1000 Inside: VLAN 300 










VLAN 100 VLAN 100 VLAN 100 
VLAN 200 VLAN 200 VLAN 200 
VLAN 300 VLAN 300 VLAN 300 


Others 
VLAN 300 


Finance 
VLAN 100 


Marketing Marketing 
VLAN 200 VLAN 200 


图 9-27 某 企 业 用 户 专 线 互 连 组 网 图 


(2) 灵活 QinQ 

前 面 介 绍 的 基本 QinQ 基于 端口 来 区 分 和 标识 不 同 的 用 户 或 用 户 网 络 ， 当 多 个 不 同 
用 户 以 不 同 的 VLAN 接 入 到 同一 个 端口 时 则 无 法 区 分 用 户 。 灵 活 QinQ 可 以 为 不 同 的 数 
据 流 打上 不 同 的 外 层 VLAN Tag: 如 根据 用 户 内 层 标签 的 VLAN ID、802.1p 优先 级 等 信 
息 的 不 同 ,封装 不 同 的 外 层 标签 。 借 助 更 加 细致 的 分 类 方法 , 实际 实现 了 根据 不 同 用 户 、 
不 同业 务 、 不 同 优先 级 等 对 报 文 进行 外 层 VLAN 标签 的 封装 。 

图 9-28 所 示 为 某 运 营 商城 域 网 的 QinQ 组 网 场景 。 













NPE 
VLAN1001 VLANIXX 
VLAN2001 VLAN3XX 


VLAN1001 VLANIXX VLAN3001 VLANSXX 


VLAN2001 VLAN3XX 
VLAN3001 VLANSXX 


VLANI101 
VLAN301 
VLAN501 


VLANI01 
VLAN301 
VLAN501 





FE 二 一 一 二 二 一 一 村 在 直 一 天 二 一 一 一 一 本 一 一 一 一 一 一 二 本 二 二 一 一 一 一 一 一 一 - 

| i'd | 

| I | PVC 101 

| | | D0 PVC 30] 
| a | 

| I ! -> | 

| I 码 到 1 中 | 

| 91 | Sw J | 

| HSI VOIP IPTV 1 1 HSI VOIP IPTV | 

,et i i 


图 9-28 某 运 营 商城 域 网 组 网 图 
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如 图 9-28 所 示 , DSLAM 支持 多 PVC 接 入 , 同一 用 户 使 用 多 种 业务 , 包括 HSI、 IPTV 
和 VOIP 等 。 运营 商 确定 不 同 的 PVC 对 应 不 同 的 业务 , 为 不 同业 务 规划 不 同 的 VLAN ID 
区 间 ,， HSI 业务 的 VLAN ID 范围 为 101 一 300,，IPTV 业务 的 VLAN ID 范围 为 301 一 500， 
VOIP 业务 的 VLAN ID 范围 为 S01 一 700。 

假设 一 个 用 户 现在 使 用 VOIP 业务 ， 业 务 数据 通过 特定 的 PVC 到 达 DSLAM， 根 据 
PVC 和 VLAN 之 间 的 对 应 关系 ， 打 上 VoIP VLAN 的 一 个 标签 ,假设 为 301。 当 VoIP 报 
文 到 达 UPE 时 ， 根 据 不 同 的 VLAN 打上 不 同 的 外 层 VLAN ID， 假 设 为 2000。 此 时 ， 内 
层 VLAN 代表 了 用 户 信息 ， 外 层 VLAN 代表 了 业务 信息 ， 同 时 也 可 以 代表 DSLAM 的 
位 置信 息 〈 不 同 DSLAM 下 的 数据 打上 不 同 的 外 层 标 签 )， 然 后 数据 沿 外 层 VLAN 标签 
到 达 NPE， 在 QinQ 终结 子 接口 进行 终结 。 根 据 核 心 网 配置 的 不 同 ， 后 续 进入 IP 转发 或 
进入 对 应 的 VPN。HSI 和 IPTV 业务 和 此 类 似 , 唯一 区 别 是 HSI 一 般 在 BRAS 进行 QinQ 
终结 。 

QinQ 报 文 的 TPID 值 

TPID 〈Tag Protocol Identifier): 标签 协议 标识 ， 是 VLAN 标签 中 的 一 个 字段 ， 表 示 
VLAN 标签 的 协议 类 型 ，IEEE 802.1Q 协议 规定 该 字段 的 取 值 为 0x8100。IEEE 802.1Q 
协议 定义 的 以 太 网 帧 的 Tag 报 文 结构 如 下 。 

如 图 9-29 所 示 , 通过 检查 对 应 的 TPID 值 , 设备 可 确定 收 到 的 帧 承载 的 是 运营 商 
VLAN 标记 还 是 用 户 VLAN 标记 。 接收 到 帧 之 后 , 设备 将 配置 的 TPID 值 与 数据 帧 中 
TPID 字段 的 值 进行 比较 。 如 果 二 者 匹配 ， 则 该 帧 承载 的 是 对 应 的 VLAN 标记 。 如 果 
数据 帧 承载 TPID 值 为 0x8100 的 VLAN 标记 ， 而 用 户 网 络 VLAN 标记 的 TPID 值 配 
置 为 0x8200， 设 备 将 认为 该 帧 没有 用 户 VLAN 标记 。 也 就 是 说 ， 设 备 认为 该 帧 是 
untagged 报 文 。 


802.1Q Encapsulation 





3bits lbits 12bits 
图 9-29 802.1Q 封装 


通常 在 QinQ 中 设备 的 内 外 层 标签 的 TPID 值 均 采 用 协议 规定 的 0x8100， 但 是 某 些 
厂商 的 设备 将 QinQ 报 文 外 层 Tag 的 TPID 值 设置 为 0x9100 或 0x9200, 在 不 同 的 网 络 规 
划 或 不 同 厂商 设备 的 QinQ 报 文中 ，VLAN Tag 的 TPID 字段 可 能 设置 为 不 同 的 值 。 为 了 
和 现 有 网 络 规划 兼容 , 设备 提供 了 QinQ 报 文 外 层 VLAN Tag 的 TPID 值 可 修改 功能 。 用 
户 通过 配置 TPID 的 值 ， 使 得 发 送 到 公 网 中 的 QinQ 报 文 携带 的 TPID 值 与 当前 网 络 配置 
相同 ， 从 而 实现 与 现 有 网 络 的 兼容 。 以 太 网 帧 的 TPID 与 不 带 VLAN 标记 的 帧 的 协议 类 
型 字段 位 置 相同 。 为 避免 在 网 络 中 转发 和 处 理 数 据 包 时 出 现 问题 ， 设 置 的 TPID 值 不 能 
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与 常用 协议 的 以 太 网 类 型 值 冲突 ， 比 如 ARP 协议 的 以 太 网 类 型 值 为 0x0806，IP 协议 的 
以 太 网 类 型 值 为 0x8100 等 。 
在 华为 交换 机 中 ， 可 以 通过 接口 命令 qinq protocol 来 修改 QinQ 标签 的 TPID 值 , 该 
命令 在 入 方向 对 报 文 起 到 识别 的 作用 ， 在 出 方向 对 报 文 的 TPID 进行 修改 或 添加 。 
BPDU Tunnel 
在 QinQ 组 网 中 ， 运 营 商 的 网 络 对 客户 来 说 是 透明 的 。 当 客户 网 络 与 运营 商 的 连接 
具有 宛 余 路 径 时 ， 就 会 导致 客户 的 二 层 网 络 出 现 环 路 ， 如 图 9-30 所 示 。 






CE-VLAN 100 CE-VLAN 100 


CE-VLAN 200 CE-VLAN 200 


9-30 基于 QinQ 的 二 层 协议 透明 传输 


为 切断 环 路 ， 客 户 需 要 在 自己 的 网 络 中 启用 生成 树 。 为 使 同一 客户 不 同 分 支 网 络 之 
间 能 传递 BPDU 报 文 进行 生成 树 计 算 , 必须 将 客户 网 络 的 BPDU 报 文 在 运营 商 网 络 中 透 
传 ， 这 个 技术 称 为 Layer2 Protocol tunnel 或 者 BPDU tunnel。 

BPDU Tunnel 可 使 运行 生成 树 功 能 的 用 户 私 网 和 运营 商 网 络 拥有 各 自 的 生成 树 ， 互 
不 干扰 ， 它 具有 的 作用 : 对 BPDU 报 文 进行 透明 传输 。 可 以 使 同一 个 用 户 网 络 的 BPDU 
报 文 在 运营 商 网 络 内 指定 的 VLAN 中 进行 广播 ,使 得 在 不 同 地 域 的 同一 个 用 户 网 络 可 以 
跨越 运营 商 网 络 进行 统一 的 生成 树 计 算 。 同 时 ， 由 于 不 同 用 户 网 络 的 BPDU 报 文 在 运营 
商 网 络 的 不 同 VLAN 中 进行 广播 ， 因此 不 同 用 户 网 络 的 BPDU 报 文 相互 隔离 , 可 以 独立 
进行 生成 树 计算 。 

BPDU Tunnel 的 实现 原理 是 Tunnel 端口 收 到 BPDU 后 ， 为 了 避免 客户 BPDU 报 文 
被 运营 商 网 络 设备 处 理 , 需要 给 封装 的 BPDU 赋予 一 个 特殊 的 组 播 MAC 作为 目的 MAC， 
把 原来 目的 MAC 〈01-80-c2-00-00-00) 修改 为 一 个 组 播 MAC (01-00-0c-cd-cd-d0)， 并 
在 FCS 前 插入 用 户 信息 等 相关 标识 , 组 播 MAC 保证 报 文 在 VLAN 内 广播 ， 同 时 标识 这 
个 报 文 是 个 BPDU-Tunnel 报 文 , 交换 机 在 收 到 这 个 报 文 时 上 送 CPU 处 理 , 还 原 其 BPDU 
身份 ， 并 根据 报 文中 的 用 户 信息 标识 部 分 的 内 容 ， 把 报 文 送 到 相应 的 客户 网 络 。 

如 图 9-31 所 示 ， 说 明了 BPDU 报 文 在 进入 BPDU Tunnel 后 的 变化 情况 。 
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BPDU Packet 


SA Length(2) 1 Protocol Data 
01-80-C2-00-00-00 | 00-0F-E2.07-F2-B0 
BPDU-Tunnel Packet 
Protocol Data 


增加 了 该 字段 用 来 
区 分 是 哪 一 个 用 户 网 络 


修改 了 BPDU 的 目的 
图 9-31 BPDU 报 文 进入 BPDU Tunnel 变化 


地 址 为 多 播 MAC 

BPDU Tunnel 除了 能 帮助 用 户 透 传 BPDU 报 文 外 ， 华 为 设备 还 支持 如 下 几 种 二 层 协 
议 报 文 的 透 传 : 

® STP (Spanning Tree Protocol) 

e LACP (Link Aggregation Control Protocol) 

®。 EOAM3ah (Ethernet Operation, Administration, and Maintenance 802.3ah) 

。° LLDP (Link Layer Discovery Protocol) 

e GVRP (Generic VLAN Registration Protocol ) 

®。 GMRP (Generic Multicast Registration Protocol) 

。 HGMP (HUAWEI Group Management Protocol) 

® VTP (Vlan Trunking Protocol) 

®。 UDLD (Unidirectional Link Detection) 

e PAGP (Port Aggregation Protocol ) 

e CDP (Cisco Discovery Protocol) 

® PVST+ (Per VLAN Spanning Tree Plus) 

e SSTP (Shared Spanning Tree Protocol) 

e DTP (Dynamic Trunking Protocol) 

e DLDP (Device Link Detection Protocol) 

。 ”用 户 自 定义 的 协议 










QinQ 应 用 场景 及 配置 示例 
(1) 基本 QinQ 示例 
1) 组 网 需求 


如 图 9-32 所 示 ， 网 络 中 有 两 个 企业 ， 企 业 1 有 两 个 分 支 ， 企业 2 有 两 个 分 支 。 这 两 
个 企业 的 各 办 公 地 的 企业 网 都 分 别 和 运营 商 网 络 中 的 SW1 和 SW2 相连 ， 且 公 网 中 存在 
其 他 厂商 设备 ， 其 外 层 VLAN Tag 的 TPID 值 为 0x9100。 

现 需要 实现 : 企业 1 和 企业 2 独立 划分 VLAN， 两 者 互 不 影响 。 各 企业 两 分 支 之 间 
流量 通过 公 网 透明 传输 ， 相 同业 务 之 间 互 通 ， 不 同业 务 之 间 互 相隔 离 。 

可 通过 配置 QinQ 来 实现 以 上 需求 。 利 用 公 网 提供 的 VLAN100 使 企业 1 互通 ， 利 
用 公 网 提供 的 VLAN200 使 企业 2 互通 ， 不 同 企业 之 间 互 相隔 离 。 并 通过 在 连接 其 他 厂 
商 设备 的 接口 上 配置 修改 QinQ 外 层 VLAN Tag 的 TPID 值 ， 来 实现 与 其 他 厂商 设备 的 
互通 。 
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ISP 
VLAN100，200 
TPID=0x9100 


企业 1 
VLAN 10to 50 


2) 配置 思路 

采用 如 下 的 思路 配置 QinQ。 

a. 在 SW1 和 SW2 上 均 创 建 VLAN100 和 VLAN200， 配 置 连接 业务 的 接口 为 QinQ 
类 型 ， 并 分 别 加 入 VLAN。 实 现 不 同业 务 添加 不 同 的 外 层 VLAN Tag。 

b. 配置 SW1 和 SW2 上 连接 公 网 的 接口 加 入 相应 VLAN， 实 现 允 许 VLAN100 和 
200 的 报 文通 过 。 

c. 在 SW1 和 SW2 连接 公 网 的 接口 上 配置 外 层 VLAN tag 的 TPID 值 ， 实 现 与 其 他 
厂商 设备 的 互通 。 

3) 操作 步骤 

创建 VLAN: 

# 在 SwitchA 上 创建 VLAN100 和 VLAN200 

<HUAWEI> system-view 

[HUAWEI] sysname SW1 

[SW1] vlan batch 100 200 

# 在 SwitchB 上 创建 VLAN100 和 VLAN200 

<HUAWEI> system-view 

‘ [HUAWEI] sysname SW2 

[SW2] vlan batch 100 200 

# 在 SW1 上 配置 接口 GE0/0/1、GE0/0/2 的 类 型 为 QinQ，GE0/0/1 的 外 层 tag 为 VLAN100，GE0/0/2 的 外 层 tag 为 
VLAN200。SW2 的 配置 与 SW1 类 似 ， 不 再 装 述 

[SW1] interface gigabitethernet 0/0/1 

[SW1-GigabitEthernet0/0/1] port link-type dot1q-tunnel 

[SW1-GigabitEthernet0/0/1] port default vlan 100 

[SW1-GigabitEthernet0/0/1] quit 

[SW1] interface gigabitethernet 0/0/2 

[SW1-GigabitEthernet0/0/2] port link-type dot1q-tunnel 

[SW1-GigabitEthernet0/0/2] port default vlan 200 

[SW1-GigabitEthernet0/0/2] quit 

配置 Switch 连接 公 网 侧 的 接口 : 

# 在 SW1 上 配置 接口 GE0/0/3 加 入 VLAN100 和 VLAN200。SW2 的 配置 与 SW1 类 似 ， 不 再 装 述 

[SWH interface gigabitethernet 0/0/3 


企业 1 
VLAN 10 to 50 


图 9-32 配置 基本 QinQ 示例 组 网 图 









企业 2 
VLAN 20to 60 






VLAN 20to 60 
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[SW1-GigabitEthernet0/0/3] port link-type trunk 
[SW1-GigabitEthemet0/0/3] port trunk allow-pass vlan 100 200 
[SW1-GigabitEthernet0/0/3] guit 


配置 外 层 VLAN tag 的 TPID 值 : 

# 在 SWI 上 配置 外 层 VLAN tag 的 TPID 值 为 0x9100 

[SW1] interface gigabitethernet 0/0/3 

[SW1-GigabitEthernet0/0/3] qinq protocol 9100 

# 在 SW2 上 配置 外 层 VLAN tag 的 TPID 值 为 0x9100 

[SW2] interface gigabitethernet 0/0/3 

[SW2-GigabitEthernet0/0/3] qinq protocol 9100 

验证 配置 结果 : 

从 企业 1 一 处 分 支 内 任意 VLAN 的 一 台 PC ping 企业 1 另外 一 处 分 支 同 一 VLAN 内 
的 PC， 如 果 可 以 ping 通则 表示 企业 1 内 部 可 以 互相 通信 ; 

从 企业 2 一 处 分 支 内 任意 VLAN 的 一 台 PC ping 企业 2 另外 一 处 分 支 同一 VLAN 内 
的 PC， 如 果 可 以 ping 通则 表示 企业 2 内 部 可 以 互相 通信 ; 

从 企业 1 一 处 分 支 内 任意 VLAN 的 一 台 PC ping 企业 2 任意 一 处 分 支 同 一 VLAN 内 
的 PC， 如 果 不 能 ping 通则 表示 企业 1 和 企业 2 之 间 相 互 隔离 。 

(2) 灵活 QinQ 示例 

1) 组 网 需求 

如 图 9-33 所 示 ，PC 上 网 用 户 和 VoIP 用 户 通过 SW1 和 SW2 接 入 运营 商 网 络 , 通过 
运营 商 的 网 络 互 相通 信 。 


VLAN2, 3 





VLAN100 VLAN300 VLAN100 VLAN300 
图 9-33 配置 灵活 QinQ 组 网 图 


企业 内 部 为 PC 分 配 的 企业 内 部 VLAN 为 100, 为 VoIP 电话 分 配 的 内 部 电话 为 300。 
要 求 PC 上 网 用 户 和 VoIP 用 户 分 别 以 VLAN2 和 VLAN3 通过 运营 商 网 络 。 

2) 配置 思路 

采用 如 下 的 思路 配置 灵活 QinQ: 

a. 在 SW1 和 SW2 上 创建 相关 VLAN。 

b. 在 SW1 和 SW2 上 配置 接口 类 型 并 加 入 VLAN。 
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c, 在 SW1 和 SW2 的 接口 上 配置 灵活 QinQ 功能 。 
3) 操作 步骤 

创建 VLAN: 
# 在 SW1 上 创建 VLAN2、VLAN3， 即 敬 加 后 的 外 层 VLAN 
<HUAWEI> system-view 
[HUAWEI] sysname SW1 
[SW1] vlan batch 2 3 
# 在 SW2 上 创建 VLAN2、VLAN3， 即 登 加 后 的 外 层 VLAN 
<HUAWEI> system-view 
[HUAWEI] sysname SW2 
[SW2] vlan batch 2 3 
在 接口 上 配置 灵活 QinQ: 
# 配置 SW1 的 接口 GE0/0/1 
[SwitchA] interface gigabitethernet 0/0/1 
[SwitchA-GigabitEthernet0/0/1] port link-type hybrid 
[SwitchA-GigabitEthernet0/0/1] port hybrid untagged vlan 2 3 
[SwitchA-GigabitEthernet0/0/1] qing vlan-translation enable 
[SwitchA-GigabitEthemet0/0/1] port vlan-stacking vlan 100 stack-vlan 2 
[SwitchA-GigabitEthernet0/0/1] port vlan-stacking vlan 300 stack-vlan 3 
[SwitchA-GigabitEthernet0/0/1] quit 
# 配置 SW2 的 接口 GE0/0/1 
[SwitchB] interface gigabitethernet 0/0/1 ， 
[SwitchB-GigabitEthernet0/0/1] port link-type hybrid 
[SwitchB-GigabitEthernet0/0/1] port hybrid untagged vlan 2 3 
[SwitchB-GigabitEthernet0/0/1] qing vlan-translation enable 
[SwitchB-GigabitEthernet0/0/1] port vlan-stacking vlan 100 stack-vlan 2 
[SwitchB-GigabitEthernet0/0/1] port vlan-stacking vlan 300 stack-vlan 3 
[SwitchB-GigabitEthernet0/0/1] quit 


配置 其 他 接口 : 


# 在 SW1 上 配置 接口 GE0/0/2 加 入 VLAN2、VLAN3 
[SwitchA] interface gigabitethernet 0/0/2 
[SwitchA-GigabitEthernet0/0/2] port link-type trunk 
[SwitchA-GigabitEthernet0/0/2] port trunk allow-pass vlan 2 3 
[SwitchA-GigabitEthernet0/0/2] quit 

# 在 SW2 上 配 转 接口 GE0/0/2 加 入 VLAN2、 VLAN3 
[SwitchB] interface gigabitethernet 0/0/2 
[SwitchB-GigabitEthernet0/0/2] port link-type trunk 
[SwitchB-GigabitEthernet0/0/2] port trunk allow-pass vlan 2 3 
[SwitchB-GigabitEthernet0/0/2] quit 


验证 配置 结果 : 

如 果 SW1、SW2 上 配置 正确 ， 则 PC 上 网 用 户 可 以 通过 运营 商 网 络 互相 通信 :VoIP 
用 户 可 以 通过 运营 商 网 络 互相 通信 。 

9.1.4.5 VLAN Mapping 

技术 概述 

VLAN Mapping 也 称 为 VLAN 映射 ,其 主要 的 功能 是 将 用 户 报 文中 的 私 网 VLAN Tag 
奉 换 为 公 网 的 VLAN Tag， 使 其 按照 公 网 的 网 络 规划 进行 传输 。 在 报 文 被 发 送 到 对 端 用 
户 私 网 时 ， 再 按照 同样 的 规则 将 VLAN Tag 恢复 为 原 有 的 用 户 私 网 VLAN Tag， 使 报 文 
正确 到 达 目 的 地 。 这 样 就 可 以 通过 运营 商 的 网 络 很 好 地 实现 两 个 用 户 私 有 网 络 二 层 无 乡 
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在 另外 一 种 场景 中 ， 如 果 由 于 规划 的 差异 ， 导 致 两 个 直接 相连 的 二 层 网 络 中 部 署 的 
VLAN ID 不 一 致 。 但 是 用 户 又 希望 可 以 把 两 个 网 络 作为 单个 二 层 网 络 进行 统一 管理 ， 比 
如 用 户 二 层 互 通 和 二 层 协议 的 统一 部 署 。 此 时 也 可 以 在 连接 两 个 网 络 的 交换 机 上 部 署 
VLAN Mapping 功能 , 实现 两 个 网 络 之 间 不 同 VLAN ID 的 映射, 达到 二 层 互 通 和 统一 管 
理 目的 。 
实现 原理 
(1) 交换 机 收 到 数据 报 文 后 ， 根 据 是 否 带 有 Tag 做 以 下 两 种 处 理 。 
e。 数据 报 文 带 Tag， 根 据 配置 的 VLAN Mapping 方式 ， 决 定 替 换 单 层 、 双 层 或 双 
层 中 的 外 层 Tag; 然后 进入 MAC 地 址 学 习 阶 段 ， 根 据 源 MAC 地 址 + 映射 后 的 
VLAN ID 刷新 MAC 地 址 表 项 ;根据 目的 MAC+ 映 射 后 VLAN ID 查找 MAC 
地 址 表 项 ， 如 果 没 有 找到 ， 则 在 VLAN ID 对 应 的 VLAN 内 广播 ， 反 之 从 表 项 
对 应 的 接口 转发 。 

。 数据 报 文 不 带 Tag， 根 据 配置 的 VLAN 划分 方式 决定 是 否 添加 VLAN Tag， 对 
于 不 能 加 入 VLAN 的 数据 报 文 上 送 CPU 或 丢弃 , 反之 添加 Tag; 然后 进入 MAC 
地 址 学 习 阶 段 ， 按 照 二 层 转发 流程 进行 转发 。 

如 图 9-34 所 示 , 某 客 户 公司 内 有 两 个 位 于 不 同 物理 位 置 的 部 门 〈 部 门 A 和 部 门 B)， 
现在 两 个 部 门 需要 二 层 互 通 。 具 体 实现 是 SwitchA 和 SwitchB 上 配置 了 VLAN 映射 关系 ， 
SwitchA 接收 到 VLAN10~50 报 文 后 ， 根 据 VLAN 映射 表 将 报 文中 的 VLAN 转换 为 
VLAN100, 将 报 文 的 源 MAC 学 习 到 VLAN100 中 , 并 在 VLAN100 中 查找 目标 MAC 对 
应 的 出 接口 ， 找 到 后 转发 进 运营 商 的 网 络 。VLAN100 报 文 穿越 运营 商 网 络 到 达 SwitchB 
时 , 根据 MAC 表 找 到 其 出 接口 , 在 从 出 接口 发 出 前 , 将 VLAN100 转换 为 VLAN60~90， 
从 而 实现 了 部 门 A 和 部 门 B 之 间 的 二 层 通信 的 目的 。 因 为 只 需 在 进行 VLAN 映射 的 两 
端 交 换 机 上 配置 ， 运 营 商 网 络 无 需 改 变 其 配置 ， 大 大 简化 了 配置 。 


口 VLAN 10to 50 
口 VLAN 60 to 90 
夯 VLAN 100 





9-34 VLAN Mapping 功能 示意 图 


(2) VLAN 映射 方式 。 

华为 设备 支持 基于 VLAN 和 MQC 方式 实现 VLAN Mapping。 

a. 基于 VLAN 的 VLAN Mapping。 

包括 以 下 2 种 映射 方式 : 1 to 1 的 映射 方式 ，2 to 1 的 映射 方式 。 

。 “1 to1 的 映射 方式 。 

当 部 署 VLAN Mapping 功能 设备 上 的 主 接口 收 到 带 有 单 层 VLAN Tag 的 报 文 时 , 将 
报 文中 携带 的 单 层 VLAN Tag 映射 为 公 网 的 VLAN Tag, 包括 1:1 和 N:1 两 种 方式 。 其 中 ， 
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1 : 1 的 方式 是 将 指定 的 一 个 用 户 侧 VLAN Tag 标签 映射 到 一 个 网 络 侧 VLAN Tag 标签 ， 
N:1 的 方式 是 将 指定 范围 的 多 个 用 户 侧 VLAN Tag 标签 映射 到 一 个 网 络 侧 VLAN Tag 标签 。 

。 ?2to 1 的 映射 方式 。 

当 部 署 VLAN Mapping 功能 设备 上 的 主 接口 收 到 带 有 双 层 VLAN Tag 的 报 文 时 , 将 
报 文中 携带 的 外 层 Tag 映射 为 公 网 的 Tag， 内 层 Tag 作为 数据 透 传 。 

b. 基于 MQC 实现 VLAN Mapping。 

基于 MQC 实现 VLAN Mapping 指 的 是 通过 MQC 可 以 对 分 类 后 的 报 文 实现 VLAN 
Mapping。 用 户 可 以 根据 多 种 匹配 规则 对 报 文 进行 流 分 类 ， 然 后 将 流 分 类 与 VLAN 
Mapping 的 动作 相关 联 ， 对 匹配 规则 的 报 文 重 标记 报 文 的 VLAN ID 值 。 基 于 MQC 的 
VLAN Mapping 能 够 针对 业务 类 型 提供 差别 服务 。 

VLAN 应 用 场景 及 配置 示例 

(1) 基于 VLAN 的 VLAN Mapping 示例 (1:1) 

1) 组 网 需求 。 

不 同 的 小 区 拥有 相同 的 业务 ， 如 上 网 、IPTV、VolP 等 业务 。 为 了 便于 管理 ， 各 个 小 
区 的 网 络 管理 者 将 不 同 的 业务 划分 到 不 同 的 VLAN 中 , 相同 的 业务 划分 到 同一 个 VLAN 
中 。 目 前 存在 不 同 的 小 区 中 相同 的 业务 所 属 的 VLAN 不 相同 ， 但 需要 实现 不 同 VLAN 
间 的 用 户 相 互通 信 。 

如 图 9-35 所 示 ， 小 区 1 和 小 区 2 中 拥有 相同 的 业务 , 但 是 属于 不 同 的 VLAN。 现 需 
要 以 低廉 的 成 本 实现 小 区 1 和 小 区 2 中 的 用 户 互 通 。VLAN5、VLAN6 内 设备 的 IP 地 址 
处 于 同一 网 段 。 


， 


172.16.0.2/16 172.16.0.6/16 
172.16.0.1/16 172.16.0.3/16 172.16.0.5/16 172.16.0.7/16 





图 9-35 ”配置 VLAN Mapping 示例 (1 : 1) 组 网 图 


2) 配置 思路 。 

采用 如 下 的 思路 配置 VLAN Mapping。 

a. 将 连接 小 区 1 的 交换 机 接口 划分 到 VLAN6， 将 连接 小 区 2 的 交换 机 接口 划分 到 
VLAN5， 用 来 区 分 不 同 的 用 户 ， 方 便 运营 商 管理 或 提供 服务 。 

b. 在 运营 商 网 络 的 边缘 设备 SW1 和 SW2 的 GE0/0/1 上 配置 VLAN Mapping 功能 ， 
将 用 户 VLAN ID 映射 为 运营 商 提 供 的 VLAN ID， 以 实现 不 同 VLAN 间 的 用 户 互 通 。 
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3) 操作 步骤 。 

将 交换 机 的 下 行 口 划分 到 指定 VLAN: 
# 配置 SW3 

<HUAWEI> system-view 

[HUAWE!I] sysname SW3 

[SW3] vlan 6 

[SW3-vlan6] quit 

[SW3] interface gigabitethernet 0/0/1 
[SW3-GigabitEthernet0/0/1] port link-type access 
[SW3-GigabitEthernet0/0/1] port default vlan 6 
[SW3-GigabitEthernet0/0/1] quit 

[SW3] interface gigabitethernet 0/0/2 
[SW3-GigabitEthemet0/0/2] port link-type access 
[SW3-GigabitEthernet0/0/2] port default vlan 6 
[SW3-GigabitEthernet0/0/2] quit 

[SW3] interface gigabitethernet 0/0/3 
[SW3-GigabitEthernet0/0/3] port link-type trunk 
[SW3-GigabitEthernet0/0/3] port trunk allow-pass vlan 6 
[SW3-GigabitEthernet0/0/3] quit 

# 配置 SW4 

<HUAWEI system-view 

[HUAWEI] sysname SW4 

[SW4] vlan 5 

[SW4-vlan5] quit 

[SW4] interface gigabitethernet 0/0/1 
[SW4-GigabitEthernet0/0/1] port link-type access 
[SW4-GigabitEthernetO/O/1] port default vlan 5 
[SW4-GigabitEthernetO/0/1] quit 

[SW4] interface gigabitethernet 0/0/2 
[SW4-GigabitEthernet0/0/2] port link-type access 
[SW4-GigabitEthernet0/0/2] port default vlan 5 
[SW4-GigabitEthernet0/0/2] quit 

[SW4] interface gigabitethernet 0/0/3 
[SW4-GigabitEthernet0/0/3] port link-type trunk 
[SW4-GigabitEthernet0/0/3] port trunk allow=pass vlan 5 
[SW4-GigabitEthernet0/0/3] quit 

配置 VLAN Mapping: 

# 配置 SWI1 

<HUAWEI> system-view 

[HUAWEI] sysname SW1 

[SW1] vlan 10 

[SW1l-vlan10] quit 

[SW1] interface gigabitethernet 0/0/1 
[SWI1-GigabitEthernet0/0/1] port link-type trunk 
[SW1-GigabitEthernet0/0/1] port trunk allow-pass vlan 10 
[SW1-GigabitEthemet0/0/1] qinq vlan-translation enable 
[SW1-GigabitEthernet0/0/1] port vlan-mapping vlan 6 map-vlan 10 
[SW1-GigabitEthernet0/0/1] quit 

# 配置 SW2 

<HUAWEI> system-view 

[HUAWEI] sysname SW2 

[SW2] vlan 10 

[SW2-vlan10] quit 

[SW2] interface gigabitethemet 0/0/1 
[SW2-GigabitEthernet0/0/1] port link-type trunk 
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[SW2-GigabitEthernetO/0/1] port trunk allow-pass vlan 10 
[SW2-GigabitEthernet0/0/1] qing vlan-translation enable 
[SW2-GigabitEthernet0/0/1] port vlan-mapping vlan 5 map-vlan 10 
[SW2-GigabitEthermet0/0/1] quit 


验证 配置 结果 : 

小 区 1 中 的 用 户 和 小 区 2 中 的 用 户 可 以 互相 通信 ， 则 配置 成 功 。 

(2) 基于 VLAN 的 VLAN Mapping 示例 CN : 1) 

1) 组 网 需求 。 

如 图 9-36 所 示 ， 为 了 区 分 不 同 的 家 庭 用 户 ， 需 要 在 楼 道 交换 机 处 用 不 同 的 VLAN 
来 承载 不 同 用 户 的 相同 业务 ， 这 样 需要 用 到 大 量 的 VLAN。 因 此 需要 在 园区 交换 机 上 完 
成 VLAN 的 汇聚 功能 CN : 1), 将 由 多 个 VLAN 发 送 的 不 同 用 户 的 相同 业务 采用 同一 个 
VLAN 进行 发 送 ， 节 约 VLAN 资源 。 








Internet 


图 9-36 配置 VLAN Mapping 示例 (N : 1) 组 网 图 


2) 配置 思路 。 

采用 如 下 的 思路 配置 VLAN Mapping。 

a. 在 Switch 上 创建 映射 前 和 映射 后 的 VLAN， 并 将 接口 GE0/0/1 以 Tagged 方式 加 
入 映射 前 和 映射 后 的 VLAN。 

b. 在 Switch 上 配置 接口 GE0/0/1 的 VLAN Mapping 功能 ， 节 约 VLAN 资源 。 

3) 操作 步骤 。 

配置 Switch: 

创建 VLAN。 

<HUAWEI> system-view 

[HUAWEI] sysname Switch 

[Switch] vlan batch 10 100 to 200 

配置 接口 加 入 VLAN。 

[Switch] interface gigabitethernet 0/0/1 

[Switch-GigabitEthernet0/0/1] port link-type hybrid 

[Switch-GigabitEthernet0/0/1] port hybrid tagged vlan 10 100 to 200 

配置 VLAN Mapping 功能 。 
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[Switch-GigabitEthernet0/0/1] qinq vlan-translation enable 
[Switch-GigabitEthernet0/0/1] port vlan-mapping vlan 100 to 200 map-vlan 10 


验证 配置 结果 : 
VLAN100 一 200 的 用 户 可 以 通过 Switch 正常 访问 网 络 。 


9.2 STP 


9.2.1 STP 概述 


9.2.1.1 STP 
STP 是 一 个 用 于 局 域 网 中 消除 环 路 的 协议 。 运 行 该 协议 的 设备 通过 彼此 交互 信息 而 
发 现 网 络 中 的 环 路 ， 并 适当 对 某 些 端口 进行 阻塞 以 消除 环 路 。 由 于 局 域 网 规模 的 不 断 增 
长 ， 生 成 树 协议 已 经 成 为 了 当前 最 重要 的 局 域 网 协议 之 一 。 
如 果 没 有 生成 树 协议 ， 会 导致 以 下 问题 。 
。 广播 风暴 导致 网 络 不 可 用 。 
环 路 产生 广播 风暴 ， 广 播 风暴 会 导致 网 络 瘫痪 。 
。 MAC 地 址 表 震 荡 导 致 MAC 地 址 表 项 被 破坏 。 
即使 是 单 播报 文 ， 也 有 可 能 导致 交换 设备 的 MAC 地 址 表 项 混乱 ， 以 致 破坏 交换 设 
备 的 MAC 地址 表 。 
9.2.1.2 华为 交换 机 生成 树 模式 
按 一 台 交 换 机 上 可 以 定义 的 生成 树 实例 和 VLAN 的 对 应 关系 , 可 以 把 交换 机 生成 树 
模式 分 成 单 生成 树 实例 模型 、 多 生成 树 实例 模型 和 基于 VLAN 生成 树 实例 模型 。 
单 实例 模型 ，SST (Single STP)， 交 换 机 上 所 有 VLAN 只 能 使 用 相同 的 一 个 拓扑 ， 
华为 交换 机 单 实例 模型 只 有 STP 和 RSTP 两 种 模式 。 
多 实例 模型 , MST(Multiple STP), 自 定义 拓扑 实例 的 数量 , 并 可 手工 关联 哪些 VLAN 
使 用 哪个 实例 。MSTP 是 华为 交换 机 默认 的 生成 树 模 式 。 
基于 VLAN 实例 模型 ，VBST (Vlan-based STP)， 无 法 定义 实例 的 数量 ， 因 为 每 个 
VLAN 都 拥有 各 自 的 生成 树 实例 ， 实 例 / 拓 扑 之 间 彼 此 独立 不 相关 。 这 种 生成 树 模式 只 在 
特定 交换 机 平台 支持 ， 多 用 于 和 Cisco PVST+ 互 操作 使 用 ， 不 建议 使 用 ， 系 统 开 销 较 大 。 
说 明 : 
e 一 台 交 换 机 只 能 工作 在 一 种 模式 下 ， 华 为 交换 机 使 用 命令 stp mode {stp | rstp | 
mstp] 在 交换 机 上 定义 生成 树 模式 。 建 议 网 络 中 所 有 交换 机 使 用 同 种 模式 ，NSTP 
是 默认 的 建议 模式 。 
e IEEE 802.1d 和 802.1w 是 目前 使 用 的 两 种 生成 树 的 算法 ， 主 要 区 别 是 计算 无 环 的 
树 所 花 的 时 间 不 同 。STP 使 用 802.1d 算法 ， 而 RSTP 和 MSTP 使 用 802.1w 算法 。 
。 实例 的 概念 实际 是 源 自 MSTP 术语 ， 代 表 每 一 棵 树 型 拓扑 ， 在 交换 网 络 中 可 同时 
定义 多 个 树 形 拓扑 ， 即 存在 多 个 实例 ， 可 定义 不 同 实例 负责 分 担 不 同 的 业务 数 
据 流 量 ， 并 走 不 同 的 转发 路 径 。 
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9.2.2 STP 基本 概念 


STP 基本 概念 包括 交换 机 BID、 端 口 ID、 端 口 成 本 、 端 口 状态 、 端 口角 色 。 
9.2.2.1 BID (Bridge ID) Bridge ID-8 Bytes 


IEEE 802.1D 标准 中 规定 BID 是 由 16 位 的 桥 
riority 


优先 级 (Bridge Priority) 与 桥 MAC 地 址 构成 的 。 









BID 中 优先 级 占据 高 16 位 其 余 的 低 48 位 是 MAC Ny 

地 址 。 高 16 位 优先 级 中 ， 低 12 位 定义 为 扩展 的 re 

SystemID， 在 STP 和 RSTP 中 该 部 分 取 值 为 0。 如 

图 9-37 所 示 。 TREE 
说 明 : 图 9-37 ”网 桥 ID 


在 STP 网 络 中 ， 桥 ID 最 小 的 设备 会 被 选举 为 根 桥 。 


9.2.2.2 端口 1D 
在 参与 生成 树 计算 时 ， 对 于 交换 设备 端口 ， 其 端口 PID 的 大 小 可 能 会 影响 到 是 否 被 
选举 为 指定 端口 。 生 成 树 计算 时 ，PID 小 者 会 被 选举 成 为 指定 端口 。 
PID: 端口 有 D 是 2 字 节 ， 其 中 ,端口 优先 级 占 1 字 节 ， 端 口号 占 1 字 节 。 但 在 配置 
时 端口 优先 级 仅 能 配置 高 4 位 ， 后 12 位 当成 端口 号 (端口 号 系统 自己 分 配 ， 不 可 调 )。 
默认 下 ， 端 口 优先 级 为 128。 
例 : 端口 D 为 128.5， 则 高 4 位 二 进 制 是 1000， 随 后 的 12 位 是 0000 00000101。 
通过 执行 stp port priority 可 以 改变 当前 端口 的 端口 优先 级 ， 从 而 影响 端口 的 PID， 
最 终 影响 该 端口 是 否 会 被 选举 成 为 指定 端口 。 
”说 明 : 
e 端口 优先 级 的 改变 时 ， 生 成 树 协议 会 重新 计算 端口 的 角色 并 进行 状态 迁移 。 
e@ 端口 优先 级 可 以 影响 端口 在 指定 生成 树 实例 和 进程 中 的 角色 。 用 户 可 以 在 不 同 
生成 树 实例 或 进程 中 对 同一 端口 配置 不 同 的 优先 级 ， 从 而 使 不 同 的 用 户 流量 沿 
不 同 的 物理 链 路 转发 ， 完 成 流量 的 负载 分 担 。 


9.2.2.3 ”端口 成 本 

交换 机 每 个 端口 都 有 自己 的 端口 成 本 ， 华 为 在 其 交换 设备 上 定义 了 3 种 端口 成 本 的 
计算 方法 ， 默 认 是 IEEE 802.1t 标准 ， 并 可 使 用 stp pathcost-standard 命令 来 修改 默认 的 端 
口 成 本 的 计算 方法 。 

stp pathcost-standard { dotld-1998 | dotlt | legacy } 

说 明 : 

1) 三 种 标准 中 ，legacy 是 华为 自己 设计 的 计算 方法 ， 三 种 方法 的 默认 成 本 值 见 表 9-1; 

2) 若 需要 为 不 同 的 端口 配置 路 径 开销 值 ， 可 单独 执行 命令 stp cost; 

3) 建议 同一 网 络 内 所 有 交换 设备 的 端口 路 径 开销 应 使 用 相同 的 路 径 开 销 计 算 方法 。 
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表 9-1 三 种 方法 的 默认 成 本 值 


10M +** 和 2,000,000 
100M *** [| 200,000 


20,000 
2000 
和 





说 明 : 

表 中 10M 和 100M 列 出 的 数值 是 半 双 工 的 端口 成 本 ， 如 果 要 是 全 双 工 的 话 ， 在 当前 基 
础 上 减 1。 如 : 10M (全 双 工 ) 端口 成 本 是 99，100M (全 双 工 ) 是 1,999,999。 

路 径 开 销 是 一 个 端口 量 ， 是 生成 树 协议 用 于 选择 链 路 的 参考 值 ， 生 成 树 协议 通过 计算 
路 径 成 本 ， 选 择 性 能 较为 稳定 的 链 路 ， 阻 塞 多 余 的 链 路 ， 将 网 络 修剪 成 无 环 路 的 树 形 网 
络 结构 。 端 口 路 径 成 本 值 的 取 值 范围 由 路 径 开销 计算 方法 决定 。 路 径 成 本 (PathCost) 是 
每 个 端口 记录 的 到 根 桥 的 端 到 端 路 径 成 本 ， 它 等 于 当前 交换 机 到 根 桥 交 换 机 的 路 径 上 所 
有 RP 端口 的 端口 成 本 之 和 ， 路 径 成 本 最 小 的 端口 是 RP 端口 。 


9.2.2.4 端口 角色 

在 生成 树 协 议 中 ， 端 口角 色 分 为 根 端 口 、 指 定 端口 、 替 代 端 口 和 备份 端口 。 原 802.1D 
中 阻塞 端口 的 角色 在 新 的 生成 树 标 准 中 分 为 替代 〈Alternate) 和 备用 〈Backup ) 端口 两 
种 角色 。 生 成 树 端口 角色 见 表 9-2 所 示 。 

表 9-2 生成 树 端 口角 色 

前 入 

Root Port 根 端口 ， 交 换 机 离 根 最 近 的 端口 ， 稳 定时 处 于 转发 状态 
指定 端口 ， 转 发 所 连接 的 网 段 发 往 根 交换 机 方向 的 数据 和 从 交换 机 方向 发 往 所 连 


Designated Port | 接 的 网 段 的 数据 ， 稳 定时 处 于 转发 状态 
Backup Port | 备份 端口 ， 处 于 Discarding 状态 ， 所 属 交换 机 为 端口 所 连 网 段 的 指定 交换 机 。 是 
DP 端口 的 备份 端口 
Altemate Port | 备用 端口 处 于 Discarding 状态 所 属 交换 机 不 是 端口 所 连接 网 段 的 指定 交换 机 。 
是 RP 端口 的 备份 端口 


例 : 试 写 出 图 9-38 中 网 段 B-C 上 的 端口 角色 ， 其 中 ,每 个 端口 的 成 本 都 是 1, 桥 ID 
的 关系 是 A<B<C。 端 口角 色 如 图 9-38 所 示 ， 图 中 用 1、2、3、4 来 代表 端口 号 ，B 交换 
机 上 的 端口 分 别 是 Pl 和 P2，C 交换 机 上 的 端 
口 分 别 是 P3 和 P4， 数 值 代表 端口 号 ， 端 口 优 
先 级 一 致 。 

在 E0/0/0 网 段 上 ， 端 口 1 是 DP 端口 ， 端 
口 2 是 BP 端口 ， 端 口 3 是 AP 端口 ， 端 口 4 
是 AP 端口 。 

(1) 根 端口 

交换 机 上 收 到 最 优 BPDU 的 端口 为 根 端 Ne WE 
口 ， 是 到 根 桥 最 近 的 端口 。BPDU 使 用 { 根 桥 DD， 到 根 桥 的 成 本 ， 邻 居 交 换 机 网 桥 ID， 
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二 Us 
邻居 交换 机 的 PortID} 描述 到 根 桥 的 拓扑 信息 ， 不 同 端口 收 到 的 拓扑 信息 中 ， 相 应 数值 
依次 比较 ， 值 最 小 的 BPDU 端口 是 根 端口 。 每 台 交 换 机 的 每 个 端口 都 会 记录 收 到 的 最 好 
的 根 交换 机 信息 。 


说 明 : 

1) 非 根 交换 机 有 且 只 有 一 个 RP 端口 ， 根 交换 机 没有 RP 端口 ; 

2) RP 端口 所 在 网 段 的 上 游 对 应 端口 一 定 是 DP 端口 ， 

3) 一 台 交 换 机 在 确定 所 有 端口 角色 时 ， 一 定 要 先 确定 出 RP 端口 角色 (或 在 已 有 RP 
的 前 提 下 )， 再 确定 其 他 角色 端口 ， 

4) 交换 机 的 根 端口 确定 出 来 后 ， 其 最 终 的 状态 是 转发 状态 。 如 果 是 STP 模式 ， 端 口 
迁移 到 转发 状态 需 等 待 2 个 Forward-Delay。 


(2) 指定 端口 
一 个 网 段 里 通告 BPDU 的 端口 为 指定 端口 ， 拥 有 该 端口 的 交换 机 是 指定 交换 机 。 通 
过 指定 交换 机 转发 过 来 的 BPDU 由 网 段 上 其 他 RP/AP 等 端口 接收 。 


说 明 : 

1) 每 个 网 段 有 且 只 有 一 个 DP 端口 ， 负 责 转 发 到 根 桥 的 流量 ; 

2) DP 端口 的 最 终 状态 是 转发 状态 ， 但 对 于 进入 转发 状态 所 需 时 间 ， 如 果 是 STP 模式 
交换 机 ， 则 需 等 待 2 个 forward-delay。 


(3) AP (AlternatePort) 端口 和 BP 〈BackupPort) 端口 

这 两 种 角色 在 IEEE802.1D-1998 中 为 BP( 阻 塞 状态 ) 端 口 , 在 新 的 生成 树 标准 (IEEE 
802.1D-2004 及 802.1w) 中 ， 把 阻塞 端口 细 分 为 AP 端口 和 BP 端口 。 华 为 在 STP/RSTP/ 
MSTP 模式 下 的 交换 机 中 都 使 用 这 两 种 端口 角色 ， 不 再 有 BlockingPort 这 种 端口 角色 。 

AP 端口 是 当前 交换 机 到 根 交 换 机 的 次 优 路 径 ， 是 交换 机 RP 端口 的 备份 端口 ， 如 果 
交换 机 有 多 个 AP 端口 ， 则 当 RP 端口 失效 时 ， 最 优 的 AP 端口 会 立即 成 为 RP 端口 。 
9-38 中 ， 端 口 3 和 端口 4 是 AP 端口 。 

BP 端口 是 指 当 一 个 接口 从 网 桥 自 身 的 另 一 个 接口 接收 到 自己 产生 的 更 优 的 BPDU 
时 ， 此 端口 称 为 备份 端口 (Backup Port)。 备 份 端口 是 指定 端口 (DP) 的 备份 ， 备 份 端 
口 会 一 直 处 于 discarding (丢弃 ) 状态 ， 直 至 DP 端口 失效 。 图 9-38 中 ， 端 口 1 是 指定 
端口 ， 端 口 2 是 备份 端口 。 

说 明 

上 述 两 种 端口 在 STP 和 RSTP 模式 交换 机 中 都 是 靠 持续 收 到 BPDU 来 保持 端口 角色 的 ， 
如 果 收 不 到 BPDU， 端 口 会 在 超时 后 发 生 角 色 变 化 。 


示例 : 计算 端口 角色 。 

图 9-39 中 ，B92 是 交换 机 ， 桥 ID 为 
92， 初 次 启动 时 ， 从 端口 1 到 5 收 到 
BPDU, 问 交 换 机 B92 如 何 计算 生成 树 端 
口角 色 ? 图 9-39 计算 端口 角色 






Port i 


41.13.90 


41.19.125 |41.12.315 | 41.12.111 
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总 路 : 

计算 过 程 是 先 确定 根 桥 ， 然 后 是 RP、DP 及 其 他 端口 角色 。 

计算 过 程 会 依次 比较 BPDU 中 拓扑 信息 ， 如 BID、PathCost、 指 定 桥 ID 及 PortID， 数 值 越 
小 越 好 。 如 果 交 换 机 的 多 个 端口 收 到 的 BPDU 一 样 ， 则 根据 接收 端口 的 PortlD 来 决定 最 好 
的 端口 。 


第 1 步 : 确定 自己 是 否 是 根 桥 。 

每 台 交 换 机 启动 之 初 都 认定 自己 即 是 root 交换 机 ， 同 时 ， 所 有 端口 角色 和 状态 是 
DP/discarding 所 以 B92 向 所 有 端口 通告 自己 的 BPDU 同时 也 从 所 有 端口 收 到 BPDU 
( 见 图 9-39)， 比 较 自己 的 BID 和 收 到 的 BPDU 中 的 根 桥 ID， 数 值 最 小 的 ID 就 是 
根 桥 。 

B92 交换 机 自己 的 BPDU 为 {92，0，92}， 而 端口 收 到 的 BPDU 为 {81，0,， 81} {41， 
15, 5 tl 2 3150 a a; M1 tM B90 

比较 报 文中 的 RootID， 可 知 根 交换 机 是 B41。 


说 明 : 
上 述 是 示意 图 括 缴 内 仅 包 含 Root ID、Path Cost 和 Designated BID 三 项 ， 其 他 内 容 省 略 。 
图 中 桥 ID 直接 用 数值 表示 。 例 ，B92 含义 是 网 桥 ID 为 92。 


第 2 步 : 确定 RP 端口 。 

根据 收 到 的 BPDU 计算 到 Root 的 路 径 成 本 〈 假 定 所 有 端口 的 成 本 为 1 )。 

计算 过 程 : 若 到 根 桥 的 路 径 成 本 一 样 ， 根 据 收 到 的 BPDU 中 的 指定 网 桥 ID 选择 数 
值 最 小 的 ;， 若 此 时 邻居 (指定 ) 网 桥 ID 一 致 ， 再 根据 收 到 BPDU 中 携带 的 PortID， 选 
择 PortID 最 小 的 那 份 BPDU; 如 果 此 时 PortID 也 一 致 的 话 ， 则 根据 自己 的 接收 PortID 
选择 数值 最 小 的 PortID 的 端口 为 RP 端口 。 

P2 {41，19，125} 

P3 {41，12，315} 

P4 {41, 12, 111} 

P5 {41, 13, 90} 

根据 路 径 成 本 ， 计 算出 端口 P3 和 P4 较 优 。 

再 根据 邻居 交换 机 BID，B111 优 于 B315。 

最 好 的 BPDU 是 P4 端口 的 BPDU。 端 口 4 是 到 Root 交换 机 的 最 近 路 径 ， 同 时 该 端 
口 是 RP 端口 。 其 他 端口 role 将 根据 该 端口 确定 。 

第 3 步 : 计算 出 自己 的 BPDU。 

交换 机 会 缓存 收 到 的 最 好 的 BPDU 在 自己 的 端口 cache 里 ， 同 时 ， 根 据 RP 端口 收 
到 的 这 份 最 好 的 BPDU 计算 出 全 局 使 用 的 B92 自己 的 BPDU, 这 也 是 要 向 下 游 交换 机 转 
发 的 BPDU。 

B92 计算 出 “自己 ”的 BPDU 为 {41，13，92，PortID } 。 

第 4 步 : 计算 其 他 端口 角色 -确定 DP 及 AP/BP 端口 。 

根据 B92 的 BPDU, 将 它 和 每 个 端口 收 到 的 BPDU 进行 比较 ,如 果 B92 自己 的 BPDU 
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优 于 端口 接收 到 的 BPDU， 则 B92 认定 该 端口 为 DP 端口 ， 同 时 B92 是 该 网 段 上 的 指定 
交换 机 。 

如 果 B92 自己 的 BPDU 没有 收 到 的 BPDU 好 ， 则 B92 认为 此 端口 是 AP 端口 
(AlternatePort)， 则 对 方 交换 机 是 该 网 段 上 的 指定 交换 机 ， 而 自己 是 接收 并 转发 BPDU 
的 下 游 交 换 机 。 

图 9-39 中 ， 对 Port 1 所 在 网 段 {81，0，81} 和 {41，13，92} 进 行 比较 ， 数 值 小 的 
好 ， 所 以 B92 为 该 网 段 指 定 交 换 机 ，Port 1 的 端口 角色 为 DP。 

对 Port 2 所 在 网 段 上 {41，19，125} 和 {41，13，92} 进 行 比较 ，B92 为 该 网 段 指 定 交 
换 机 ，Port2 为 DP 端口 。 

对 Port 3 所 在 网 段 上 {41，12，315} 和 {41，13，92} 进 行 比较 ，B92 交换 机 的 BPDU 
不 如 对 方 ， 所 以 Port3 为 AP 端口 。 

同 理 ，Port5 也 是 AP 端口 。 i J mx 

示例 : 计算 端口 角色 。 

在 图 9-39 的 基础 上 添加 端口 6 和 端口 
7， 并 使 用 网 线 互 连 ， 如 图 9-40 所 示 。 以 下 
用 P6 和 了 P7 代表 端口 6 和 7。 

添加 P6 和 P7 端口 ， 并 接 在 同一 个 网 41.12315 |41.12.111 
段 ，P6 和 P7 端口 上 收 到 BPDU{41，13， 图 9.40 计算 端口 角色 
92，x} 和 {41，13，92，y}。 利 用 上 面 的 规 
则 , 对 收 到 的 BPDU 和 自己 的 BPDU 进行 比较 , 只 关心 第 三 个 拓扑 信息 发 送 BPDU 的 桥 
ID 为 B92。 以 下 示例 中 PortID 为 128 端口 号 。 

P7 端口 {41，13，92，128.6} {41，13，92，128.7} ， 左 侧 是 收 到 的 BPDU， 右 侧 是 
B92 向 P7 端口 发 送 的 BPDU。 由 于 收 到 的 BPDU 好 于 待 发 送 的 BPDU 且 其 发 送 的 桥 ID 
是 B92， 所 以 P7 端口 角色 为 BP (BackupPort)。 

P6 端口 {41，13，92，128.7}{41，13，92，128.6}， 待 发 送 的 BPDU 好 ， 所 以 端口 
角色 为 DP。 


说 明 : 

1) BP 端口 、AP 端口 及 RP 端口 都 是 接收 BPDU 的 端口 ，AP 端口 是 处 在 非 指定 交换 机 
上 的 阻塞 端口 ， 同 时 ，AP 端口 也 是 自身 RP 端口 的 备份 。 而 BP 端口 则 是 出 现在 指定 交换 
机 上 的 阻塞 端口 ， 同 时 也 是 相同 网 段 上 DP 端口 的 备份 ， 即 DP 端口 失效 后 ，BP 端口 会 成 
为 新 的 DP 端口 。 

2) 从 状态 上 看 ，BP、AP 及 RP 端口 中 ，BP 和 AP 都 是 见 余 链 路 ， 处 于 Discarding 状态 ， 
RP 则 是 转发 链 路 (Forwarding 状态 ) 。 
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41.13.90 


9.2.2.5 ”端口 状态 

交换 机 在 启动 之 初 极 短 时 间 内 就 能 确定 端口 的 角色 ， 但 端口 状态 从 Discarding 迁移 
到 Forwarding 这 一 过 程 在 STP 和 RSTP 中 是 不 一 样 的 。 

IEEE 802.1D-1998 标准 定义 的 端口 状态 是 以 下 5 种 状态 ， 见 表 9-3 所 示 。 
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端口 状态 
只 有 根 端口 或 指定 端口 才能 进 


Forwarding | 端口 既 转 发 用 户 流量 ， 也 处 理 BPDU 报 文 入 Forwarding 状态 


设备 会 根据 收 到 的 用 户 流量 构建 MAC 地 址 表 但 不 | 过 渡 状 态 增加 Learning 状态 防 
转发 用 户 流量 止 临时 环 路 
确定 端口 角色 ， 将 选举 出 根 桥 、 根 端口 和 指定 端口 | 过 渡 状 态 


端口 仅仅 接收 并 处 理 BPDU， 不 转发 用 户 流量 阻塞 端口 的 最 终 状 态 
端口 不 处 理 BPDU 报 文 ， 不 转发 用 户 流量 端口 处 在 非 操 作 状 态 


新 的 生成 树 标准 (IEEE 802.1D-2004 和 802.1w) 重新 定义 交换 机 端口 状态 为 3 种 。 
其 中 ，802.1D-1998 中 的 Disable、Blocking 和 Listening 状态 被 合并 为 Discarding 状态 。 
表 9-4 为 新 旧 两 种 标准 的 端口 状态 对 应 关系 。 












Listening 
Blocking 
Disable 




























表 9-4 802.1w 端口 状态 
802.1D-1998 | ”802.1D-2004 802.1w | ”是 否 参与 生成 树 计算 | 是 否 学 习 MAC 地 址 
| 
ev 


说 明 : 

1) 华为 交换 机 在 任何 一 种 生成 树 模 式 下 ， 端 口 状态 都 只 有 Forwarding、Learning 和 
Discarding 三 种 状态 。 

2) 在 STP 模 式 下 ，DP 和 RP 端 口 最 终 的 状态 是 Forwarding 状态 ， 其 迁移 过 程 是 先 保持 
15s 的 Discarding 状态 ， 然 后 保持 15s 的 Learning 状态 (IEEE 802.1D-1998 中 定义 的 迁移 过 程 
为 15s 的 Listening， 15s 的 Learning) 。RSTP 模式 下 会 快速 进入 转发 状态 ， 这 是 STP 和 RSTP 
的 主要 区 别 。 

3) AP 和 BP 端口 状态 会 一 直 处 于 Discarding 状态 。 


9.2.2.6 计时 器 

生成 树 协议 (STP 及 RSTP) 中 用 到 了 Hello、Forward Delay 和 Max Age 这 3 个 计 
时 器 ， 它 们 会 影响 端口 状态 迁移 和 收敛 时 间 ， 可 在 全 局 使 用 命令 修改 。 

例 : 修改 交换 机 3 个 参数 为 Hello=3s，Forward-Delay=20s, Max-Age=30s。 

<HUAWEI>system-View 

[HUAWEI]stp timer forward-delay 2000 

[HUAWEIstp timer hello 30 

[HUAWEI]stp timer max-age3000 

# 默 认 hello 时 间 调 成 3s，forward-delay 调 为 20s，max-age 调 为 308， 默 认 时 间 是 28、15s 及 20s 

说 明 : 

调整 计时 器 一 定 要 在 “ 根 交换 机 ”上 配置 ， 其 他 交换 机 使 用 根 桥 交换 机 的 计时 器 工作 ， 
根 交 换 机 BPDU 中 的 计时 器 优 于 交换 机 本 地 计时 器 的 配置 。 这 通过 根 交 换 机 的 BPDU 把 时 


ES 654 


| 第 九 章 交换 技术 | 


间 通 告 到 全 网 。 


Hello Time 

根 交 换 机 产生 的 BPDU 的 通告 时 间 间 隅 ， 它 用 于 充当 设备 间 检 测 链 路 的 Keepalive， 
也 用 来 传递 STP 计算 所 需 的 拓扑 信息 。 

修改 Hello 间隔 上 只 能 在 根 交 换 机 修改 后 才 起 作用 ， 根 桥 会 在 发 出 的 BPDU 报 文中 携 
带 新 的 Hello 间隔 时 间 。 

说 明 : 

STP 模式 下 ，TCN BPDU 的 发 送 不 受 这 个 计时 器 的 管理 ， 间 隔 时 间 一 直 是 2s。 

Forward Delay 

设备 状态 迁移 的 延迟 时 间 。 链 路 故障 会 引发 网 络 重 新 进行 生成 树 的 计算 ， 生 成 树 的 
结构 将 发 生 相 应 的 变化 。 不 过 重新 计算 得 到 的 新 拓扑 信息 无 法 立即 传 到 整个 网 络 ， 此 时 
阁 立 即将 新 选 出 的 根 端口 和 指定 端口 置 于 数据 转发 的 状态 ， 则 可 能 会 出 现 临 时 环 路 。 所 
以 STP 使 用 了 一 种 状态 迁移 机 制 , 要 求 新 选 出 的 根 端口 和 指定 端口 要 经 过 2 倍 的 Forward 
Delay 后 ， 才 能 进入 转发 状态 ， 这 个 延 时 足够 保证 新 的 配置 消息 能 传 遍 整 个 网 络 ， 全 网 
都 执行 免 环 的 计算 ， 环 路 不 会 发 生 。 

Forward Delay 计时 器 是 指 一 个 端口 迁移 到 转发 状态 前 处 于 Discarding 和 Learning 状 
态 的 各 自持 续 时 间 ， 默 认 是 15s， 即 Discarding 状态 持续 15s， 随 后 Learning 状态 再 持续 
15s。 在 这 两 个 状态 下 的 端口 会 处 于 阻塞 数据 状态 ， 计 时 器 超时 之 后 ， 这 个 端口 才 进 入 转 

Max Age 

802.1D 算法 中 定义 端 日 可 以 缓存 收 到 的 最 好 BPDU, 这 份 BPDU 的 最 大 老化 时 间 就 
是 Max Age， 默 认 时 间 是 20s。 

802.1D 规范 定义 :“ 如 果 端 口 接收 到 的 BPDU 内 包含 的 配置 消息 优 于 端口 上 保存 的 
配置 消息 ， 则 端口 上 原来 保存 的 配置 消息 被 新 收 到 的 配置 消息 替代 。 端 口 同 时 更 新 交换 
设备 保存 的 全 局 配置 消息 。 反 之 ， 新 收 到 的 BPDU 被 丢弃 。” 运 行 STP 协议 的 网 络 中 非 
根 桥 设备 收 到 配置 BPDU 报 文 后 ， 报 文中 的 Message Age 和 Max Age 会 进行 比较 。 

e ”如 果 Message Age 小 于 等 于 Max Age 则 该 非 根 桥 设 备 继续 转发 配置 BPDU 报 文 。 

。 如果 Message Age 大 于 Max Age， 则 该 配置 BPDU 报 文 将 被 老化 。 该 非 根 桥 设 

备 直 接 丢弃 该 配置 BPDU， 可 认为 网 络 直径 过 大 ， 导 致 根 桥 连接 失败 。 

根据 上 述 802.1D 标准 可 知 MaxAge 对 网 络 收敛 时 间 有 影响 。 

华为 交换 机 不 再 使 用 MaxAge 来 决定 端口 角色 变化 需 等 待 的 超时 时 间 。 目 前 ， 华 为 
交换 机 STP/RSTP 实现 中 ， 若 收 到 次 的 BPDU， 端 口 会 立即 处 理 并 计算 新 的 端口 角色 。 
若 接 收 不 到 BPDU, 端口 角色 也 会 在 至 少 3 个 Hello 间隔 后 重新 计算 , 整个 过 程 Max Age 
不 再 参与 。 


9.2.3 ”STP 报 文 类 型 
STP 有 2 种 报 文 结构 ， 一 种 是 配置 BPDU (Configuration BPDU)， 另 一 种 拓扑 变化 
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通知 BPDU (TCN BPDU)。 

在 前 面 的 章节 中 介绍 了 桥 ID 、 路 径 开 销 和 端口 ID 等 信息 ， 所 有 这 些 信息 都 是 通过 
BPDU 协议 报 文 传输 的 , 配置 BPDU 从 根 交 换 机 流出 ,下游 交换 机 收 到 并 转发 , 配置 BPDU 
是 一 种 心跳 报 文 ， 只 要 端口 使 能 STP， 则 配置 BPDU 会 被 周期 通告 ， 这 份 BPDU 记录 最 
好 根 桥 的 信息 ， 并 通告 到 全 网 。 而 TCN BPDU 是 在 设备 检测 到 网 络 拓扑 发 生变 化 时 才 发 
出 的 。 

BPDU 报 文 被 封装 在 以 太 网 数据 帧 中 , 目的 MAC 是 组 播 MAC: 01-80-C2-00-00-00， 
Length/Type 字段 为 MAC 数据 长 度 ， 后 面 是 LLC 头 ，LLC 之 后 是 BPDU 报 文 头 。 以 太 
网 数据 帧 格式 如 图 9-41 所 示 。 


6Bytes 6Bytes 2Bytes 38 一 1492Bytes 4Bytes 





1Byte 1Byte 1Byte 
图 9-41 以 太 网 帧 结构 


9.2.3.1 配置 BPDU 

通常 所 说 的 BPDU 报 文 多 数 指 配置 BPDU。 

在 初始 化 过 程 中 ， 每 个 桥 交 换 机 都 主动 发 送 配置 BPDU。 但 在 网 络 拓扑 稳定 以 后 ， 
只 有 根 桥 主动 发 送 配置 BPDU， 其 他 桥 在 收 到 上 游 传 来 的 配置 BPDU 后 ， 才 触发 转发 自 
己 的 配置 BPDU。 配 置 BPDU 的 长 度 要 35 个 Byte， 包 含 了 桥 ID 、 路 径 开 销 和 端口 ID 
等 参数 .只 有 当 发 送 者 的 BID 或 端口 的 PID 两 个 字段 中 至 少 有 一 个 和 本 桥接 收 端口 不 同 ， 
BPDU 报 文 才 会 被 处 理 ， 否 则 丢弃 ， 这 样 可 避免 处 理 和 本 端口 信息 一 致 的 BPDU 报 文 。 

配置 BPDU 在 以 下 3 种 情况 下 会 产生 。 

e 只 要 端口 使 能 STP, 配置 BPDU 就 会 按照 Hello Time 定时 器 规定 的 时 间 间 隔 从 

指定 端口 发 出 。 

。 ” 当 根 端口 收 到 配置 BPDU 时 ， 根 端口 所 在 的 设备 会 向 自己 的 每 一 个 指定 端口 复 

制 一 份 配置 BPDU。 
。 ” 当 指 定 端口 收 到 比 自己 差 的 配置 BPDU 时 ， 立 刻 触 发 向 下 游 设 备 发 送 自己 的 
BPDU。( 此 机 制 可 加 速 一 个 网 段 有 次 优 设备 接 入 时 , 加 速 其 计算 端口 角色 的 过 程 ) 
配置 BPDU 报 文 基本 格式 如 图 9-42 所 示 。 

其 中 ， 配 置 BPDU 的 Flag 位 中 ， 仅 位 7 和 位 0 有 定义 ， 其 他 为 未 定义 ， 如 图 9-43 
所 示 。 
TCA 置 位 的 配置 BPDU 用 来 确认 收 到 TCN BPDU。 

TC 配置 的 BPDU 用 来 通知 交换 机 清空 桥 表 。 

9.2.3.2 TCN BPDU 

TCN BPDU 内 容 比较 简单 ， 只 有 图 9-42 中 列 出 的 前 3 个 字段 : 协议 号 、 版 本 和 类 
型 。 类 型 字段 是 固定 值 0x80， 长 度 只 有 4 个 Byte。 
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、 用 于 术 呈 区 人 





图 9-42 STP BPDU 


TCN BPDU 是 在 下 游 拓 扑 发 生变 化 时 用 来 通知 根 交 换 机 网 络 某 处 拓扑 发 生变 化 。 
TCN 是 仅 用 于 通告 拓扑 变化 的 一 种 BPDU， 不 含有 拓扑 信息 ， 如 图 9-44 所 示 。 


IEEE 802.2 
Address; 00-10-14-31-08-08 一 ->01-80-C2-00-00-00 
length: 7 
EF Logical Link Control 

SSAP Address: Ox42, CR bit = 0 (Command) 
Reserved DSAP Address: 0x42. IG bit = 0 (Individual address) 


> 
Unnunbered frane: UI 
vol TT [TT [eo] om 
Protocol ID: 0 
Version: 0 
Type: 0x80 (Topology Change Notification) 


TCA (Topology Change TC (Topology Frane Padding : (39 bytes) 
Acknowledgment flag) Change flag) "图 Calculate CRC; 0x65ad743d 
图 9-43 配置 BPDU 中 的 Flag 位 图 9-44 STPTCN BPDU 


。 TCN 的 工作 方式 是 可 靠 的 ，TCN BPDU 会 收 到 TCA 置 位 的 配置 BPDU 用 作 确 
认 。 否 则 TCN 会 一 直 发 ， 具 体 过 程 请 参考 后 面 拓扑 变化 通知 过 程 。 

TCN BPDU 在 如 下 两 种 情况 下 会 产生 : 

。 端口 状态 变 为 Forwarding 状态 ， 且 该 设备 上 至 少 有 一 个 指定 端口 ; 

。 ”指定 端口 收 到 TCN BPDU， 复 制 TCN BPDU 并 发 往 根 桥 。 


9.2.4 ”拓扑 收敛 计算 


示例 : 拓扑 计算 过 程 

三 台 交 换 机 连接 关系 如 图 9-45 所 示 ， 
其 中 ， 网 桥 ID 关系 是 SW1 < SW2 < SW3， 
图 中 所 有 链 路 的 成 本 是 20000。 

SW1 是 根 桥 , SW3 端口 3 是 AP 端口 ， 
SW2 端口 4 是 DP 端口 , SW2 端口 5 是 BP 
端口 。 PC1、 PC2 和 PC3 代表 连接 在 三 台 交 Be 
换 机 上 的 PC 机 。 网络 稳 定时 ,端口 3 和 端 图 9-45 生成 树 拓扑 计算 
口 5 不 转发 数据 。SW1 和 SW3 之 间 是 链 路 2，SW1 和 SW2 之 间 是 链 路 1。 
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9.2.4.1 当 链 路 2 中 新 时 

SW3 的 端口 2 是 RP 端口 ， 当 链 路 2 中 断 时 ，RP 端口 消失 ，SW3 所 有 端口 角色 重 
新 计算 ， 并 把 自己 当成 根 桥 ， 端 口 初 始 为 DP/Discarding， 开 始 通告 自己 的 BPDU。SW2 
和 SW3 之 间 网 段 上 ，SW2 的 端口 4 是 DP 端口 ， 听 到 次 的 (SW3 的 ) BPDU，SW2 指 
定 端口 不 等 待 Hello 间隔 ， 立 即 回应 自己 端口 缓存 的 BPDU 给 SW3，SW3 端口 3 收 到 
BPDU 后 ， 重 新 计算 而 成 为 RP 端口 。SW3 交换 机 继续 计算 其 他 端口 角色 ， 如 连接 PC3 
的 DP 端口 。SW3 的 RP/DP 端口 在 两 个 Forward-Delay 时 间 后 进入 转发 状态 ， 所 以 ， 在 
链 路 2 中 断后 ，PC3 和 PC1 节点 间 通 信 恢 复 所 需 时 间 为 角色 变化 所 需 时 间 + 状 态 变化 所 
需 时 间 。 此 种 拓扑 变化 属 直 连 RP 端口 失效 ， 所 需 时 间 是 30s。 

华为 实现 :“ 交 换 机 SW3 的 端口 3 是 AP 端口 ， 它 是 到 根 桥 SW1 的 次 优 路 径 ， 当 
SW3 的 RP 端口 失效 后 ，SW3 交换 机 端口 3 (AP 端口 ) 立即 成 为 RP 端口 ， 状 态 为 
Discarding， 不 需要 重新 计算 角色 ， 但 在 STP 下 状态 迁移 所 需 时 间 仍 要 30s。” 


绪论: 
在 华为 STP 实现 中 ， 若 当前 交换 机 有 AP 端口 ， 则 RP 端口 失效 时 ， 最 好 的 AP 端口 会 
立即 成 为 RP 端口 。 


9.2.4.2” 当 链 路 1 中 断 时 

若 失 效 的 是 链 路 1， 则 SW2 将 失去 根 端口 ， 交 换 机 把 自己 当成 根 桥 ， 置 所 有 端口 为 
DP/Discarding, 并 通告 自己 的 BPDU。SW3 端口 3 是 AP 端口 , 收 到 次 的 (SW2 的 ) BPDU 
后 ， 会 和 端口 3 缓存 的 BPDU 比较 。 

若 比 缓存 的 BPDU 好 ， 则 端口 接收 BPDU 并 重新 计算 端口 角色 ; 

若 没 有 缓存 的 BPDU 好 ， 则 忽略 该 BPDU， 端 口角 色 不 变化 。 

此 处 SW3 AP 端口 收 到 的 BPDU 没有 端口 缓存 的 BPDU 好 ， 则 SW3 忽略 收 到 的 
BPDU 并 保持 AP 端口 角色 。 

AP 端口 缓存 的 BPDU 在 Max-Age 超时 后 ， 端 口才 开始 重新 计算 角色 ，Max-Age 时 
间 最 长 为 20s， 端 口 超时 后 ，SW3 端口 3 角色 为 DP 端口 ， 状 态 为 Discarding。 而 SW2 
的 端口 4 和 端口 $ 都 收 到 指定 端口 (SW3 DP 端口 ) 发 出 的 BPDU， 计 算 之 后 ， 端 口 4 
是 RP 端口 ， 而 端口 5 是 AP 端口 。 

SW2 RP 端口 和 SW3 DP 端口 在 接 下 来 的 30s 后 ， 同 时 进入 转发 状态 。 

SW3 的 端口 3 角色 转换 需要 20s， 而 端口 的 状态 迁移 又 需要 30s， 所 以 PC2 和 PCI1 
间 数 据 通信 中 断 近 50s。 


说 明 
SW3 AP 端口 角色 变化 需要 等 待 的 时 间 等 于 Max Age 减 去 Message-age 后 剩余 时 间 (小 于 20s) 。 


华为 实现 :“SW2 的 RP 端口 失效 后 ， 由 于 SW2 没有 AP 端口 ，SW2 把 自己 当成 根 
桥 并 通告 自己 的 (次 的 ) BPDU 给 SW3，SW3 在 AP 端口 收 到 SW2 的 次 的 BPDU 后 ， 
并 没有 等 待 端口 缓存 的 最 好 BPDU 超时 ， 而 是 立即 接收 并 重新 计算 端口 角色 ,没有 引入 
20s 的 等 竺 延迟 ， 端 口 立即 计算 而 成 为 DP 端口 ,但 状态 由 Discarding 迁移 到 转发 状态 仍 
需要 30s 的 迁移 时 间 。” 
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华为 在 其 STP 实现 中 , 接收 BPDU 的 端口 车 收 到 次 的 BPDU, 会 立即 重新 计算 端口 角色 ， 
虽 易 引起 网 络 的 震荡 ， 但 收敛 时 间 减 少 了 。 


9.2.4.3 当 SW3 端口 4 失效 时 

如 果 在 SW2 和 SW3 之 间 的 网 段 上 ，SW2 端口 4 失效， 端口 4 是 该 网 段 上 的 DP 端 
口 ， 转 发 BPDU。BPDU 用 来 维持 AP/BP/RP 端口 角色 ， 当 DP 端口 失效 后 ，SW2 端口 5 
(BP 端口 ) 和 SW3 端口 3 (AP 端口 ) 等 待 208， 在 端口 缓存 的 BPDU 超时 后 ， 重 新 开 
台 计 算 端 口角 色 。SW3 的 端口 3 仍 为 AP 端口 ， 而 SW2 的 端口 5 成 为 DP 端口 。 端 口 状 
态 迁 移 需要 30s， 网 络 要 在 近 50s 后 才 稳 定 。 

华为 实现 :“ 在 SW2 和 SW3 间 网 段 上 ，SW2 的 端口 5 (BP 端口 ) 和 SW3 的 端口 3 
(AP 端口 ) 在 该 网 段 的 DP 端口 失效 后 , 会 长 时 间 收 不 到 BPDU, 交换 机 在 收 不 到 BPDU 
至 少 3 个 Hello 间隔 后 ， 端 口角 色 成 为 DP/Discarding。” 

华为 超时 时 间 的 计算 公式 : 超时 时 间 二 Hello Time X 3 X Timer Factor。 

Timer Factor 默认 值 为 3, 可 在 全 局 使 用 stp timer-factor 命令 修改 。 其中, Timer Factor 
值 可 以 设置 为 1~10， 可 根据 网 络 稳 定性 的 要 求 调 大 或 调 小 ， 超 时 时 间 默 认 是 18s。 


绾 论 : 
华为 交换 机 在 STP 下 ， 若 端口 收 不 到 BPDU 时 ， 等 待 至 少 3 个 Hello 间隔 时 间 ， 端 口角 
色 重 新 计算 ， 不 再 等 待 Max Age， 可 降低 网 络 重新 收敛 所 需要 的 时 间 。 


9.2.5 ”拓扑 变化 通知 
STP 可 以 在 拓扑 变化 时 ， 通 过 算法 快速 计算 出 新 的 转发 链 路 ， 但 交换 机 桥 表 却 没有 
这 么 快 进行 及 时 的 调整 ， 旧 的 错误 MAC 和 端口 的 指向 关系 会 影响 数据 的 正常 转发 。 所 
以 需要 拓扑 变化 通知 机 制 去 加 快 交 换 机 的 转发 桥 表 的 更 新 , 以 尽量 减少 数据 中 断 的 时 间 。 
当 拓 扑 变 化 后 ，STP 交换 机 按 图 9-46 方式 开始 通知 网 络 拓扑 变化 。 





根 桥 根 桥 
/ 
TCN 从 T 位 置 产生 ， 根 桥 收 到 TCN 后 ， 
向 上 逐 跳 发 给 根 桥 通告 TC 置 位 的 BPDU 


图 9-46 STP 下 的 拓扑 通知 机 制 


1. 在 网 络 拓扑 发 生变 化 后 ， 下 游 设备 会 不 间断 地 向 上 游 设 备 发 送 TCN BPDU 报 文 。 
TCN 从 RP 端口 发 出 ， 间 隔 28， 不 受 根 交换 机 Hello 间隔 的 影响 。 
2. 上 游 设备 收 到 下 游 设备 发 来 的 TCN BPDU 报 文 后 ， 只 有 指定 端口 处 理 TCN BPDU 
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报 文 。 其 他 端口 也 有 可 能 收 到 TCN BPDU 报 文 ， 但 不 会 处 理 。 
3. 上 游 设备 会 把 配置 BPDU 报 文中 的 Flags 的 TCA 位 设置 1， 然 后 发 送 给 下 游 设 
备 ， 充 当 收 到 TCN 的 确认 ， 否 则 下 游 设 备 会 一 直 发 送 TCN BPDU 报 文 。 
4. 上 游 设 备 重复 该 过 程 ， 把 TCN BPDU 继续 向 其 RP 端口 发 送 ， 直 至 从 上 游 收 到 
TCA 置 位 的 配置 BPDU。 
5. TCN BPDU 会 一 直 向 上 发 送 ， 直 至 发 送 到 根 桥 。 
6. 根 桥 知道 网 络 中 有 拓扑 变化 后 ， 根 桥 把 配置 BPDU 报 文 中 的 Flags 的 TC 置 位 后 发 
送 , TC 置 位 的 配置 BPDU 会 泛 洪 到 全 网 , 收 到 的 华为 交换 机 会 直接 删除 桥 MAC 地 址 表 项 。 
7. 根 桥 持续 发 送 TC 置 位 的 BPDU， 时 间 为 Forward-Delay + MaxAge， 共 35s。 


说 明 : 

e ”TCN BPDU 报 文 主要 用 来 向 上 游 设 备 乃 至 根 桥 通知 拓扑 变化 。 

e 置 位 的 TCA 标 记 的 配置 BPDU 报 文 主要 是 上 游 设备 用 来 告知 下 游 设 备 已 经 知道 拓 
扑 变化 ， 通 知 下 游 设备 停止 发 送 TCN BPDU 报 文 。 

e 置 位 的 TC 标记 的 配置 BPDU 报 文 主要 是 上 游 设 备用 来 告知 下 游 设备 拓扑 发 生变 
化 ， 以 使 下 游 设 备 删除 桥 MAC 地 址 表 项 ， 从 而 降低 数据 通信 中 断 时 间 。 


华为 STP 拓扑 通知 机 制 区 别 于 传统 的 STP 的 拓扑 变化 行为 ， 表 现 如 下 。 

1. 华为 的 STP 实现 中 , 触发 产生 拓扑 变化 通知 是 当 端 晶 ( 非 边缘 端口 ， 华 为 的 STP 
交换 机 可 以 配置 边缘 端口 ) 进 入 转发 状态 的 时 候 ， 而 端口 Down 时 并 不 会 触发 拓扑 变化 
通知 (端口 Down 时 ， 触 发 拓扑 通知 没有 意义 )。 

2. 当 TC 置 位 BPDU 被 交换 机 收 到 后 ,将 交换 机 的 桥 表 清空 。 这 种 实现 方法 能 及 时 
清除 错误 的 MAC 表 项 ， 但 会 致 网 络 产生 过 多 的 单 播 泛 洪 报 文 。 


9.2.6 ”STP 设计 建议 及 不 足 


STP 协议 虽然 能 够 解决 环 路 问题 ， 但 是 由 于 网 络 拓扑 收敛 慢 ，30 一 50s 的 收敛 时 间 
过 长 ， 远 长 于 三 层 路 由 协议 的 收 剑 时间。 如果 网 络 中 的 拓扑 结构 频繁 变化 ， 网 络 也 会 随 
之 频繁 失去 连通 性 ， 从 而 导致 用 户 通 信 频 繁 中 断 。 

华为 交换 机 在 其 设计 开发 STP 时 ， 引 入 很 多 新 的 RSTP 快速 收敛 技术 到 STP 中 。 这 
使 华为 的 STP 实现 相 比 于 传统 的 STP, 在 拓扑 变化 时 , 角色 迁移 所 需要 的 时 间 大 大 减少 。 

以 下 这 些 在 华为 STP 实现 中 都 已 经 使 用 : 

e 使 用 新 的 端口 角色 及 状态 ; 

。 ”RP 端口 失效 ，AP 端口 可 立即 成 为 新 的 RP 端口 ; 

e ”接收 到 次 的 BPDU， 端 口 不 需要 等 Max Age， 立 即 开始 计算 端口 角色 ; 

e 若 收 不 到 BPDU， 不 再 使 用 Max Age 来 判定 上 连 链 路 失效 ， 三 个 Hello 间隔 后 

重新 收敛 ， 检 测 网 络 故 障 的 时 间 变 短 。 

上 述 华为 STP 实现 中 , 仅 是 在 STP 中 加 入 了 RSTP 端口 角色 快速 收敛 的 机 制 ,并 没 
有 改变 端口 状态 迁移 所 需要 的 时 间 ， 其 并 没有 从 根本 上 提升 STP 机 制 ， 只 是 对 其 做 了 必 
要 的 优化 而 已 。 

STP 的 不 足 之 处 仍 在 于 : 
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。 ”STP 算法 是 被 动 的 算法 ， 状 态 的 迁移 依赖 于 定时 器 ， 所 以 拓扑 变化 所 需 的 时 间 
最 短 仍 是 308， 这 个 时 间 一 直 存在 ， 无 法 从 根本 改进 STP; 
。 若 拓扑 变化 频繁 ， 反 复 清空 桥 表 ， 会 导致 网 络 过 量 的 单 播报 文 的 泛 洪 ， 加 重 网 
络 负荷 (华为 在 其 STP 实现 中 , 是 可 以 开启 边缘 端口 特性 来 优化 STP 下 的 网 络 
性 能 的 ， 本 节 没 有 提 到 ， 读 者 可 参考 RSTP 中 的 边缘 端口 实现 )。 


9.3 RSTP 


本 章 主要 描述 RSTP 协议 相 比 STP 的 改进 如 BPDU 报 文 改进 、 状 态 快 速 切换 机 制 、 
拓扑 变更 机 制 等 。 


9.3.1 RSTP 概述 


802.1d 标准 设计 用 于 在 一 分 钟 之 内 在 二 层 交 换 网 络 中 创建 无 环 的 树 形 拓扑 或 在 拓扑 
变化 时 计算 新 树 形 结构 拓扑 ， 它 的 优点 是 解决 了 转发 环 路 问题 。 但 当 拓扑 发 生变 化 时 ， 
生成 新 树 需 要 最 长 近 50s 的 等 待 时 间 ， 使 802.1d 相 比 许多 三 层 路 由 协议 仍 要 慢 许 多 ， 现 
在 的 高 速 园区 网 络 需要 一 个 能 更 快 收敛 的 二 层 协议 ， 以 避免 由 于 二 层 链 路 的 抖动 而 导致 
的 三 层 路 由 协议 相应 震荡 等 问题 。 

IEEE 802.1w 《Rapid Spanning Tree Protocol) 标准 是 在 802.1d 标准 基础 之 上 进行 优 
化 改进 后 得 出 的 协议 ，802.1w 保留 了 大 部 分 STP 算法 的 机 制 ， 同 时 ， 加 入 了 快速 收敛 的 
机 制 。RSTP 不 像 STP 协议 那样 完全 依赖 于 时 间 ，RSTP 会 主动 协商 链 路 状 状态 ， 保 证 链 
路 在 1s 内 能 转发 数据 。 


9.3.2 RSTP 相 比 于 STP 


RSTP 对 STP 做 了 很 多 改动 。 
新 的 链 路 类 型 要 求 。 
新 的 端口 角色 和 状态 。 
新 的 报 文 格式 和 BPDU 的 处 理 方式 。 
主动 的 握手 协商 机 制 (new)。 
不 同 的 TCN 处 理 过 程 (new)。 
e。 边缘 端口 。 
9.3.2.1 端口 (link 链 路 ) 类 型 
802.1d 对 连接 交换 机 的 链 路 或 网 段 是 没有 要 求 的 ， 任 两 台 交换 机 间 网 段 (Segment) 
上 可 以 接 有 多 台 交 换 机 或 使 用 共享 链 路 〈HalfDuplex) 互 连 。 而 802.1w 则 对 链 路 有 严 
格 的 要 求 ， 不 同 链 路 类 型 可 影响 到 收敛 速度 及 工作 机 制 。 
Point-to-Point 链 路 类 型 : 交换 机 间 Full Duplex 链 路 。 
共享 链 路 : 交换 机 间 半 双 工 链 路 互联 ， 可 以 连接 Hub 或 其 他 Half Duplex 的 链 路 。 
RSTP 很 多 快速 收敛 的 机 制 都 一 定 要 工作 在 Point-to-Point 全 双 工 的 场景 下 ， 如 果 不 
是 点 到 点 链 路 类 型 ， 则 RSTP 使 用 类 似 802.1d 的 慢 收敛 机 制 〈 即 基于 Timer 的 被 动 收 敛 )。 


661 ms 


| HCIE 路 由 交换 学 习 指 南 | 


在 图 9-47 中 ， 如 果 端 口 都 是 全 双 工 状态 ， 则 SW1 和 SW2 都 认为 互联 的 链 路 类 型 是 
Point-to-Point。 华 为 设备 默认 自动 检测 端口 类 型 ， 可 使 用 命令 stp point-to-point { auto | 
force-false | force-true } 去 强制 端口 类 型 。Auto 代表 自动 检测 ， 是 端口 默认 值 。 


SW3 





SW2 SW2 


(Ca) (b) (©) 
9-47 已 知 的 Point-to-Point 链 路 类 型 
说 明 如 下 。 
。 手工 设置 端口 类 型 优 于 端口 检测 的 结果 。 
e 处 于 DP/discarding 状态 的 端口 能 否 快 速 进入 转发 状态 ， 依 赖 于 端口 是 否 是 
Point-to-Point 全 双 工 , 否则 发 出 的 BPDU 中 未 置 A 位 , 若 对 方 端口 是 RP 端口 ， 
不 会 回应 Agreement BPDU。 
。 AP 端口 成 为 RP 端口 ， 不 依赖 端口 是 否 是 Point-to-Point 全 双 工 。 
。 在 运行 生成 树 协议 的 二 层 网 络 中 ， 交 换 设 备 的 端口 和 非 点 对 点 链 路 相连 时 ， 端 
口 的 状态 无 法 快速 迁移 。 
。 ”如 果 当 前 端口 工作 在 全 双 工 模式 ， 则 当前 端口 所 连 的 链 路 是 点 到 点 链 路 ， 可 以 
选择 参数 force-true。 
。 ”如 果 当 前 端口 工作 在 半 双 工 模 式 ， 可 通过 执行 命令 stp point-to-point force-true 
强制 链 路 类 型 为 点 到 点 链 路 ， 实 现 快速 收敛 。 
9.3.2.2 ”端口 角色 和 端口 状态 
华为 STP 和 RSTP 使 用 同样 的 端口 角色 ， 根 端口 、 指 定 端口 、 替 代 和 备份 端口 ， 同 
样 的 端口 角色 计算 过 程 ， 区 别 是 RP 和 DP 进入 转发 状态 的 时 间 不 一 致 。 
9.3.2.3 RSTP 报 文 格 式 的 变化 
802.1w 相对 于 802.1d 对 于 BPDU 报 文 结构 做 了 改进 ，BPDU 新 格式 包括 2 点 
内 容 ， 如 图 9-48 所 示 。 
1. 在 STP 中 Flag 位 仅 使 用 了 2bit 一 一 TC 和 TCA 位 ， 而 RSTP〈 如 图 9-49 所 示 ) 
使 用 了 整个 Flag 位 的 8bit。 添 加 了 端口 角色 和 状态 的 标识 。 


说 明 : 
在 RSTP 中 TCA 不 再 使 用 。 


位 7: 在 RSTP 中 不 使 用 。 
位 6: Agreement 位 ， 链 路 是 点 到 点 类 型 时 置 位 。 
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Topology Change Topology 
Acknowledgment flag Change flag 
Port role= 00 Unknown 
01 Alternate/Backup port 
10 Root port 
11 Designated port 


图 9-48 802.1w BPDU Flag 标记 




















Protocol ID (2 Byte) 
Version (1 Byte) 
Bit 1-Proposal 
Message [ype (LE Byte) Bit 2-3-Port role 
Flags (1 Byte) 00 Unknown 
01 Alternate/backup 
Root ID (8 Byt 
a 
Path Cost (4 Bytes) 11 Designated 
Bridge ID (8Bytes) Bit 4-Leaming 
Port ID (2 Bytes) Bit 5-Forwarding 
Message Age (2 Bytes) Bit 6-Agreement 
Maximum Age (2 Bytes) Bit 7-Topology Change-ACK 
Hello Time (2 Bytes) 


Forwarding Delay (2 Bytes) 


Version 1 Length (2 Bytes) 


9-49 RSTP 报 文 格式 








Updated Field Bit 0-Topology Change 













Configurable 









Root Set and 
Configurable 


位 5: 端口 状态 标识 位 ， 置 0 代表 Discarding 或 Learning， 置 1 代表 Forwarding。 

位 4: 端口 状态 标识 位 ， 置 0 代表 Discarding， 置 1 代表 Learning 或 Forwarding。 

e Discarding 状态 00 

e Leaming 状态 01 

e ” Forwarding 状态 11 

位 3: 代表 端口 角色 。 

位 2: 代表 端口 角色 。 

。 01 代表 AP 或 BP 

。 10 代表 RP 

。 11 代表 DP 

位 1: proposal 提议 ， 当 端口 是 DP/Discarding 或 DP/Learning 状态 时 置 1。 

位 0: 当 拓 扑 变化 时 ， 在 通知 拓扑 变化 的 BPDU 中 置 位 。 

2. 另 一 个 关于 RSTP BPDU 的 重要 变化 是 此 时 的 BPDU 的 版 本 为 2， 消 息 类 型 为 
0x02。 这 意味 着 一 个 运行 802.1d 协议 的 网 桥 将 丢弃 此 BPDU， 这 个 特性 将 使 802.1w 网 
桥 很 容易 检测 到 与 之 相连 的 802.1d 网 桥 。RSTP 抓 包 如 图 9-50 所 示 。 
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日 Spanning Tree Protocol 
Protocol Identifier: Spanning Tree Protoco]l (0x0000) 
Protocol Version Identifier: Rapid spanning Tree (2) 
BPDU Type: Rapid/Multiple Spanning Tree (0x02) 
日 BPDU flags: Ox7c (Agreement, Forwarding, Learning, Port Role: Designated) 
vu sive = Topology Change Acknowledgment: NO 


"1.. .... = Agreement: Yes 
Cy Eo dings Wg 
.TI...， = Learning: 


11. = Port Role: DR (3) 
0 = Proposal: NO 
= Topology Change: No 
EE| Roor a 0/ 0/ 4c:1f:cc:9d:54:a4 
Root Bridge Priority: 0 
Root Bridge System ID Extension: 0 
Root Bridge System ID: HuaweiTe_9d:54:a4 (4c:1f:cc:9d:54:a4) 
ROOT Path Cost: 0 
B Bridge Identifier: e / 0/ 4c:1if:cc:9d:54:a4 
Bridge Priority: 
Bridge System ID ER 
Bridge System ID: HuaweiTe_: 9 54:a4 (4c:1f:cc:9d:54:a4) 
Port identifier: Ox8001 
Message Age: 0 
Max Age: 20 
Hello Time: 2 
Forward Delay: 15 
Version 1 Length: 0 


图 9-50 RSTP 抓 包 


9.3.3 ”快速 收敛 机 制 


当 每 个 端口 角色 发 生变 化 后 ， 相 应 的 端口 状态 也 会 随 之 发 生变 化 。 端 口 的 状态 根据 
端口 的 角色 而 定 。 而 任何 端口 的 初始 角色 都 是 指定 端口 ， 状 态 是 Discarding。 即 使 是 RP 
端口 ， 初 始 状态 也 是 Discarding。DP 和 RP 最 终 的 端口 状态 都 是 Forwarding，802.1w 定 
义 了 状态 快速 迁移 的 机 制 。 当 端口 为 DP 或 RP 时 ， 状 态 由 Discarding 立即 进入 到 
Forwarding 或 通过 P/A 协商 而 快速 进入 Forwarding， 端 口 状态 都 实现 了 快速 切换 ， 避 免 
了 802.1d 下 慢 收敛 而 致 的 路 由 协议 的 抖动 、 用 户 数据 访问 中 断 时 间 过 长 等 问题 。 

802.1w 相 比 于 802.1d 增加 了 如 下 快速 收敛 机 制 : 

e ”RP 端口 的 快速 切换 机 制 ， 当 RP 端口 消失 时 ，AP 端口 立即 成 为 RP 端口 及 转发 

。 DP 端口 主动 P/A 协商 进入 到 Forwarding 状态 。 

。 至少 3 个 Hello 间隔 收 不 到 BPDU 端口 角色 便 发 生 重新 计算 ,或 收 到 次 的 BPDU 

端口 角色 时 也 立即 重新 计算 。 

9.3.3.1 BPDU 老化 /超时 机 制 

华为 IEEE 802.1w 协议 实现 机 制 : 

端口 会 缓存 收 到 的 最 好 的 BPDU, 如 果 至 少 3 个 连续 的 Hello 间隔 没有 收 到 BPDU， 
端口 失去 原 有 和 角色， 并 立即 对 该 端口 重新 计算 ， 华 为 交换 设备 默认 的 超时 时 间 为 18s， 
和 华为 STP 实现 一 样 。 

图 9-51 中 ，SW1-SW4 链 路 失效 ，SW2 的 RP 端口 会 在 18s 后 超时 并 失去 RP 端口 
角色 。18s 后 ，SW2 开始 声称 自己 是 “ 根 桥 ” 发 送 次 的 BPDU，SW3 接收 到 后 ， 端 口 3 
立即 重新 计算 而 成 为 DP/Discarding，SW2 和 SW3 间 经 过 P/A 协商 之 后 ， 成 为 新 的 转发 
链 路 。 在 此 场景 中 ，SW2 判定 链 路 失效 消耗 了 18s， 在 此 之 后 ， 一 秒 内 完成 SW2-SW3 
状态 切换 。PC2 访问 PC1 经 过 路 径 SW2-SW3-SW1。 
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Port 3 AP 





图 9-51 超时 所 致 链 路 失效 


9.3.3.2 ”接收 次 的 BPDU 

在 802.1w 标准 中 ， 当 一 台 下 游 交 换 机 从 上 游 交 换 机 接收 到 次 的 BPDU 后 ， 并 不 是 
等 待 端口 缓存 BPDU 的 MaxAge 超时 (华为 交换 机 不 再 需要 MaxAge 机 制 )， 而 是 立即 
接收 并 重新 计算 端口 角色 ， 这 可 加 速 收敛 。 

SW3 到 根 交 换 机 SW1 有 两 条 路 径 ，SW1-SW3 为 最 优 路 径 ， 转 发 状态 。 
SW1-SW2-SW3 为 次 优 路 径 ， 阻 塞 端口 。 当 SW1-SW2 间 链 路 故障 时 ，SW2 交换 机 立即 
产生 自己 的 BPDU (次 优 BPDU) 给 SW3，SW3 会 立即 开始 计算 端口 角色 。 图 9-52 中 ， 
收 到 次 优 BPDU 后 ， 无 需 等 待 任何 超时 。 在 802.1w 中 ， 链 路 类 型 是 Point-to-Point， 任 
何 到 根 交 换 机 的 路 径 上 上 游 或 下 游 端口 或 交换 机 故障 后 ， 一 定 会 有 次 优 BPDU 产生 ， 下 
游 交换 机 不 用 判断 超时 而 立即 计算 。SW3 的 AP 端口 成 为 DP 端口 ， 其 和 SW2 的 DP 端 
口 同时 为 Discarding 状态 ， 并 开始 P/A 协商 ， 能 够 快速 收敛 。 





PC2 PC3 


BPDU 
SW2 PD SW3 


9-52 ”SW1-SW2 链 路 失效 后 ， 产 生 次 优 BPDU 
说 明 : 
任何 一 台 交 换 机 的 根 端口 消失 ， 同 时 没有 AP 端口 ， 此 时 交换 机 会 置 其 他 所 有 端口 为 
DP 端口 角色 ， 并 产生 自己 的 BPDU.。 
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收 到 次 的 BPDU 立即 计算 角色 ,RSTP 不 用 Max Age 的 BPDU 超时 机 制 ， 可 加 速 收 敛 。 
9.3.3.3” 根 端口 快速 切换 
替代 端口 (AP) 是 当前 交换 机 上 RP 端口 的 “备份 ”端口 ， 每 台 交 换 机 上 到 达 根 交换 

机 的 路 径 有 多 个 ， 如 果 RP 端口 路 径 丢 失 ， 交 换 机 可 以 从 多 个 替代 端口 中 ， 把 最 好 的 替代 端 

口 (AP) 立即 切换 为 RP 端口 ， 并 且 状 态 也 同时 进入 转发 状态 ， 从 而 提高 网 络 收敛 速度 。 
图 9-53 中 ，SW1-SW3 间 链 路 失效 ，SW3 交换 机 上 AP 端口 处 于 Discarding 状态 ， 

当 RP 端口 Down 后 ，AP 立即 成 为 RP 端口 ， 状 态 立 即 进入 转发 状态 (无 需 P/A 协商 ， 

因为 不 存在 DP/Discarding 端口 )，SW2 DP 端口 角色 及 状态 不 变 。 所 以 PC3 访问 PC1 时 

流量 几乎 没有 中 断 转 发 路 径 就 快速 由 SW3-SW1 切换 到 SW3-SW2-SW1。 





图 9-53 AP 端口 切换 为 RP 


说 明 : 
若 SW3 有 DP 端口, 则 根 端口 在 由 端口 2 变 为 端口 3 的 过 程 中 , 其 状态 及 角色 不 变化 ， 
即 RP 端口 快速 切换 过 程 中 ， 交 换 机 上 其 他 端口 通信 不 受 影响 ， 数 据 未 中 断 。 


转发 路 径 快 速 切换 后 ， 唯 一 的 要 求 是 桥 表 要 及 时 更 新 ， 否 则 数据 通信 仍然 受 影响 。 

9.3.3.4 状态 切换 机 制 1 一 一 主动 P/A 协商 机 制 

802.1d 和 802.1w 在 端口 角色 的 计算 过 程 上 是 一 致 的 ， 需 要 的 时 间 也 一 样 ， 但 IEEE 
802.1d 却 没有 显示 的 通知 机 制 来 决定 何 时 将 端口 置 为 转发 状态 ， 要 完全 依赖 于 计时 器 。 
IEEE 802.1w 引入 了 主动 将 端口 置 于 Forwarding 状态 的 握手 协商 机 制 ， 通 过 交互 报 文 来 
实现 通知 端口 立即 进入 转发 状态 。 下 面 是 RSTP 下 DP 及 RP 端口 使 用 的 协商 机 制 。 

Proposal/Agreement 机 制 

P/A 机 制 即 Proposal/Agreement 机 制 ， 此 机 制 的 目的 仅 是 将 指定 端口 快速 转换 到 转 
发 状态 而 引入 的 一 种 协商 行为 。 协 商 过 程 使 用 Proposal 和 Agreement 置 位 的 RSTPBPDU 
报 文 ， 此 机 制 仅 发 生 在 Point-to-Point 类 型 的 链 路 上 (全 双 工 直 连 链 路 ， 非 直 连 链 路 上 该 
机 制 易 出 环 路 )。 

事实 上 对 于 STP， 指 定 端口 的 选择 可 以 很 快 完成 ， 主 要 的 速度 瓶颈 在 于 : 为 了 避免 
环 路 ， 必 须 等 待 足够 长 的 时 间 ， 使 全 网 的 端口 状态 全 部 确定 ， 也 就 是 说 必须 要 等 待 至 少 
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一 个 Forward Delay， 所 有 端口 才能 进行 转发 。 而 RSTP 的 主要 目的 就 是 消除 这 个 瓶颈 ， 
通过 阻塞 自己 的 非 根 端口 来 保证 不 会 出 现 环 路 。 而 使 用 P/A 机 制 加 快 了 上 游 端口 转 到 
Forwarding 状态 的 速度 。 
图 9-54 是 IEEE 802.1w 定义 的 交换 机 内 部 及 之 间 的 P/A 过 程 。 







新 增 链 路 、、 


@ Agreement GD Proposal 


P2 阻塞 端口 
P3 指定 端口 
P4 边缘 端口 
© 
synce sync 
不 改变 端口 状态 不 改变 端口 状态 


Sync 


阻塞 端口 
9-54 ”802.1w P/A 协商 过 程 


图 9-54 中 ,交换 机 SW1 和 SW2 之 间 新 添加 了 一 条 链 路 。P0 和 P1 端口 的 初始 角色 
为 DP 端口 ， 状 态 为 Discarding， 链 路 是 P2P 全 双 工 。 

第 1 步 ， 端口 P0 和 端口 P1 都 发 送 Proposal 置 位 的 BPDU。 

第 2 步 : SW1 和 SW2 根据 收 到 的 BPDU 计算 端口 角色 , 图 9-54 中 , P1 为 RP 端口 ， 
P0 为 DP 端口 。 

第 3 步 : SW2 开始 同步 过 程 。 同 步 过 程 会 依次 扫描 所 有 其 他 端口 ， 除 边缘 端口 和 已 
处 于 Discarding 状态 的 端口 外 ,将 其 他 端口 状态 置 为 Discarding, 这 就 是 同步 过 程 (Sync 
Process)， 以 保证 RP 端口 进入 Forwarding 时 没有 环 路 存在 。 

第 4 步 ， SW2 完成 同步 后 ，P1 端口 状态 可 安全 进入 Forwarding 并 通告 置 Agreement 
位 的 BPDU 给 SW1。 同 时 ，SW2 向 所 有 处 于 转发 状态 的 端口 〈 除 边缘 端口 外 ) 通告 TC 
置 位 BPDU。 

第 5 步 : SW1 上 DP 端口 ， 收 到 Agreement BPDU 后 ， 状 态 立 即 进入 Forwarding 状 
态 。 至 此 ，SW1 和 SW2 间 主 动 的 握手 协商 过 程 结 束 。 

第 6 步 : SW2 继续 向 已 同步 的 DP/Discarding 端口 通告 Proposal BPDU， 在 各 个 链 路 
上 重新 开始 新 的 P/A 协商 过 程 。 这 种 P/A 机 制 向 网 络 中 添加 DP/RP 的 转发 链 路 ， 直 至 计 
算 到 网 络 边缘 。 

P/A 机 制 使 用 说 明 

(1) 如 果 上 述 场景 下 ， 下 游 端 口 Pl 收 到 Proposal BPDU 后 ， 端 口角 色 为 AP 端口 ， 
则 无 同步 过 程 ,SW2 不 回应 Agreement 报 文 给 上 游 交 换 机 ,上游 P0 端口 是 DP Discarding， 
没有 收 到 Agreement BPDU, 所 以 端口 经 历 2 个 Forward Delay 慢 慢 进入 Forwarding 状态 。 

(2) 一 旦 P/A 协商 不 成 功 ， 指 定 端口 的 选择 就 需要 等 待 两 个 Forward Delay， 协 商 过 
程 与 STP 一 样 。 
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(3) P/A 机 制 仅 发 生 在 Point-to-Point 全 双 工 链 路 上 ， 如 果 是 半 双 工 链 路 ，DP 端口 
发 送 的 BPDU 由 于 没有 A 置 位 而 致 下 游 RP 端口 无 法 触发 同步 ， 所 以 下 游 RP 端口 和 上 
游 DP 端口 都 经 历 2 个 ForwardDelay 而 进入 Forwarding。 

(4) P/A 之 间 一 定 要 全 双 工 直 连 ， 如 果 是 全 双 工 但 非 直 连 ， 则 会 出 现 短暂 环 路 。 

(5) P/A 机 制 是 当 上 游 是 DP 端口 ， 下 游 是 RP 端口 时 ， 才 快速 协商 进入 转发 状态 。 
若 下 游 是 AP 端口 ， 则 在 收 到 Proposal 报 文 后 ， 并 不 回应 Agreement 报 文 而 致 DP 在 30s 
后 进入 转发 状态 。 

(6) P/A 机 制 中 ，Proposal BPDU 是 DP 发 送 给 对 端的 BPDU，Agreement BPDU 是 
下 游 交 换 机 把 其 RP 端口 收 到 的 BPDU 经 计算 后 向 上 游 回 应 。 其 中 ，Flag 置 位 如 下 : RP 
角色 ，Forwarding 状态 ，Agreement 置 位 。 

(7) RSTP 网 络 的 P/A 协商 行为 是 渐进 性 的 ， 逐 段 由 根 桥 向 网 络 边缘 扩散 。 下 游 交 
换 机 在 收 到 Proposal 后 ， 回 应 Agreement， 完 成 P/A 协商 后 ， 其 他 DP/Discarding 端口 再 
继续 开始 P/A 协商 ， 直 至 到 达 网 络 边缘 。 

9.3.3.5 边缘 端口 

IEEE 802.1d 规范 中 没有 定义 连接 PC 机 的 端口 行为 ,所 以 会 由 于 大 量 主机 加 入 网 络 
而 致 过 量 的 TC 通知， 交换 机 桥 表 被 反复 清空 ， 过 量 的 数据 泛 洪 影响 网 络 性 能 。 

802.1w 定义 的 边缘 端口 具备 如 下 特性 : 

。 边缘 端口 状态 变化 不 会 触发 拓扑 变化 通知 ; 

。 ”边缘 端口 不 参与 STP 计算 ， 端 口 启动 后 可 以 直接 进入 转发 状态 ， 从 而 跳 过 丢弃 
(Discarding) 和 学 习 (Learning) 状态 ; 

e ”边缘 端口 会 向 外 周期 通告 BPDU， 但 车 边缘 端口 接收 到 BPDU， 该 端口 会 立即 
丢失 边缘 端口 特性 , 切换 回 普 通 生 成 树 端口 并 根据 收 到 的 BPDU 重新 计算 端口 
角色 ; 

。  P/A 协商 过 程 中 ， 同 步 (Sync) 过 程 并 不 会 阻塞 边缘 端口 ， 同 时 TC 通知 BPDU 
也 不 清空 边缘 端口 的 MAC 表 项 (TC BPDU 并 不 向 边缘 端口 转发 )。 

使 用 说 明 如 下 。 

(1) 华为 交换 机 可 在 STP 及 RSTP 模式 下 开启 边缘 端口 ， 端 口上 输入 命令 : stp 

edged-port enable。 

(2) 边缘 端口 是 为 连接 终端 设备 ， 如 PC、 服务器、 路由器、 防火 墙 等 设备 使 用 。 若 
连接 交换 设备 ， 易 于 出 现 环 路 。 

(3) 边缘 端口 的 频繁 抖动 对 网 络 没有 影响 ， 不 产生 拓扑 变化 通知 ， 同 时 交换 机 也 不 
向 边缘 端口 转发 拓扑 变化 通知 。 

(4) 边缘 端口 的 角色 为 DP， 并 保持 转发 状态 。 

(5) 边缘 端口 通告 BPDU 的 目的 是 为 了 检测 生成 树 环 路 ， 见 后 面 的 场景 分 析 。 

(6) 为 避免 边缘 端口 下 连接 交换 设备 或 防止 攻击 者 仿造 BPDU 报 文 导致 边缘 端口 属 
性 变 成 非 边缘 端口 ， 可 将 边缘 端口 连同 BPDU 防护 特性 一 起 使 用 ， 使 边缘 端口 收 到 
BPDU， 端 口 会 shutdown， 以 保护 边缘 端口 ， 同 时 边缘 端口 特性 不 变 。 

示例 : SW1 和 SW2 为 RSTP 交换 机 。 请 简单 分 析 边 缘 端 口 按照 图 9-55 方式 相连 有 
什么 问题 ? 
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图 9-55 (a) 为 边缘 端口 的 Portl 和 Port2 被 用 户 通过 网 线 互 联 后 ， 由 于 端口 启动 之 

初 没 有 收 到 任何 BPDU， 所 以 两 个 端口 均 直 接 进入 转发 状态 。 所 以 初期 会 有 短暂 的 环 路 

发 生 ， 但 边缘 端口 车 互相 收 到 对 方 的 BPDU， 则 失去 边缘 端口 的 特性 ， 变 成 普通 端口 ， 

端口 阻塞 数据 ， 并 重新 根据 各 自 收 到 的 BPDU 计算 端口 角色 。 网 络 稳定 后 ， 端 口 Portl 

应 该 是 DP/Forwarding， 而 Port2 是 BP/Discarding。 
图 9-55 (b) 中 ，Portl 和 Port2 端口 连接 到 一 台 交 换 机 ， 如 果 交 换 机 是 普通 交换 机 

且 无 STP， 交 换 机 则 可 透 传 BPDU，Portl 和 Port2 互相 收 到 对 方 的 BPDU， 其 效果 等 同 于 

图 9-55(a)。 但 车 该 交换 机 是 华为 交换 机 , 交换 机 在 端口 上 关闭 STP, 使 用 命令 “STP diable”。 


SWI SWI SWI] SW1 
SW2 SW2 SW2 SW2 
Portl1 1 Port2 Portl| 1Port2 Portl Portl | 1Por2 
, 要 port3! | Port4 Port3 | Port4 
fp no STP ey SW3 
Portl | | Port2 
(a) (b) cc ) (d) 


图 9-55 边缘 端口 场景 


说 明 : 

华为 交换 机 在 端口 上 输入 STP disable， 端 口 会 过 滤 STP 报 文 ，SW2 交换 机 Port1 和 Port2 
端口 互相 收 不 到 对 方 的 BPDU， 所 以 Port1 和 Port2 的 端口 角色 和 状态 依然 不 变 ， 都 是 转发 
状态 。 这 时 端口 Port1/Port2/Port3/Port4 都 可 转发 数据 ， 所 以 环 路 出 现 。 


图 9-55〈c) 中 ， 边 缘 端口 Portl 一 旦 收 到 自己 的 BPDU。 端 口 Portl 便 处 于 DP， 状 
态 为 Discarding 状态 ， 无 环 路 发 生 。 

图 9-55(d) 中 ， 把 华为 交换 机 SW3 接 在 边缘 端口 下 面 。 边 缘 端 口 一 旦 收 到 BPDU， 
端口 阻塞 数据 ,失去 边缘 端口 特性 , 开始 重新 计算 端口 角色 。 如 果 SW1 是 根 桥 ,， 则 Portl 
和 Port2 是 DP/Forwarding， 而 Port3 是 RP/Forwarding，Port4 是 AP/Discarding。 整 个 过 
程 无 环 路 发 生 。 


9.3.4 ”拓扑 变化 通知 机 制 


802.1w 协议 规范 中 ， 定 义 TC (Topology Change) 具备 如 下 特性 。 

(1) 触发 条 件 : 只 有 非 边缘 端口 切换 到 转发 状态 时 才 被 定义 为 拓扑 变动 ， 非 边缘 端 
口 丢 失 连 接 不 会 触发 拓扑 变化 通知 。 

(2) 拓扑 变化 交换 机 ， 产 生 通 知 。 

。 TC 置 位 的 BPDU 向 所 有 处 于 转发 状态 的 非 边 缘 的 DP 和 RP 端口 去 扩散 。 

e 为 转发 端口 开启 TC While 计时 器 ， 时 长 是 2 个 Hello 间隔 。 
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e ”清空 所 有 接口 MAC 地 址 关联 表 (边缘 端口 除外 )。 

一 旦 检测 到 拓扑 发 生变 化 ， 将 进行 如 下 处 理 : 

为 本 交换 设备 的 所 有 非 边 缘 指 定 端口 启动 一 个 TC While Timer, 该 计时 器 值 是 Hello 
Time 的 两 倍 。 

在 这 个 时 间 内 ， 清 空 状态 发 生变 化 的 端口 上 学 习 到 的 MAC 地 址 。 

同时 ， 由 这 些 端口 向 外 发 送 RST BPDU， 其 中 TC 置 位 。 一旦 TC While Timer 超时 ， 
则 停止 发 送 RST BPDU。 

(3) 周边 交换 机 ， 扩 散 通 知 。 

e 交换 机 收 到 TC 置 位 的 BPDU 向 其 他 DP/RP 端口 扩散 转发 。 

。 清空 所 有 接口 的 MAC 地 址 关联 表 ， 除 了 收 到 TC BPDU 的 接口 。 

。 ”开启 TC While 计时 器 ， 并 且 继 续 向 所 有 处 于 转发 状态 的 非 边 缘 的 DP 和 RP 端 

口 去 转发 TC 置 位 的 BPDU。 


说 明 : 

1) 802.1w 拓扑 变化 通知 机 制 以 拓扑 变化 点 为 源 ， 直 接 向 周边 链 路 扩散 TC 置 位 BPDU， 
不 需要 TCN 报 文 来 通知 根 桥 ， 这 种 机 制 相 较 802.1d 更 直接 ， 更 快速 ， 效 率 更 高 。 

2) 交换 机 桥 表 的 更 新 机 制 做 了 优化 ， 没 有 必要 全 部 清除 ， 以 降低 泛 洪 对 网 络 的 影响 。 

3) 拓扑 变化 通知 不 向 边缘 端口 扩散 ， 边 缘 端 口 状态 变化 也 不 会 触发 拓扑 变化 通知 。 


在 RSTP 中 检测 拓扑 是 否 发 生变 化 只 有 一 个 标准 :一 个 非 边 缘 端 口 迁移 到 Forwarding 
如 此 ， 网 络 中 就 会 产生 RST BPDU 的 泛 洪 。 如 图 9-56 所 示 。 





图 9-56 ”802.1w TC 泛 洪 机 制 


802.1w 这 种 TC 机 制 会 从 故障 点 在 一 个 很 短 的 时 间 内 刷新 整个 网 络 的 CAM 表 ， 清 
除 MAC 及 快速 地 通知 ， 可 加 速 清除 网 络 中 错误 MAC 的 机 制 。 消 息 快速 地 泛 洪 给 整个 
网 络 ， 此 时 的 TC 传播 为 一 步 完 成 。 事 实 上， 拓扑 变动 的 发 起 者 会 在 整个 网 络 中 泛 洪 该 
信息 ， 而 不 是 像 802.1d 只 有 根 网 桥 可 以 进行 TC 信息 泛 洪 。 这 种 机 制 会 比 802.1d 更 加 快 
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速 有 效 ， 没 有 必要 去 等 待 根 桥 通 告 网 络 变 动 ， 也 没有 必要 等 待 15s 来 让 此 消息 泛 洪 至 全 
网 后 刷新 接口 MAC 表 。 


9.3.5 ”扩展 性 及 优化 RSTP 与 STP 兼容 


802.1w 协议 可 以 在 一 个 交换 网 络 实现 与 802.1d 协议 的 互 操作 。 但 一 旦 与 802.1d 协 
议 实现 互 操作 便 丧 失 802.1w 的 快速 收敛 机 制 。 

当 一 个 网 段 里 既 运 行 STP 的 交换 设备 ， 又 运行 RSTP 的 交换 设备 ，STP 交换 设备 会 
忽略 RSTP BPDU， 而 运行 RSTP 的 交换 设备 在 某 端 口上 接收 到 运行 STP 的 交换 设备 发 
出 的 配置 BPDU， 在 两 个 Hello Time 时 间 之 后 ， 便 把 自己 的 端口 转换 到 STP 工作 模式 ， 
发 送 配 置 BPDU。 这 样 ， 就 实现 了 互 操作 。 

802.1w 与 802.1d 兼容 示意 如 图 9-57 所 示 。 


802.1w 802.1w 802.1d 


SWI 





RSTP BPDU 


图 9-57 802.1w 兼容 机 制 


假设 交换 机 SW1 和 SW2 初始 化 运行 802.1w 协议 ，SW3 运行 802.14，SWI1 交换 机 
为 此 网 段 指定 交换 机 。SW1 和 SW2 初始 听 到 SW3 的 配置 BPDU 后 ， 相 应 端口 工作 在 
STP 模式 。 

此 时 如 果 交 换 机 SW3 被 移 除 ， 虽 然 交 换 机 SW1 和 交换 机 SW2 运行 802.1w 协议 将 
更 加 高 效 ， 但 此 时 交换 机 SW1 端口 仍然 运行 802.1d 模式 。 这 是 因为 在 此 网 段 上 SWI 无 
法 通过 某 种 机 制 知道 交换 机 SW3 被 移 除 。 在 这 种 情况 下 华为 交换 设备 可 以 通过 在 接口 下 
执行 stp mcheck 命令 来 将 接口 迁移 回 802.1w 模式 。 


9.4 MSTP 


9.4.1 MSTP 和 STP/RSTP 的 比较 


华为 现 有 的 生成 树 技术 STP 及 RSTP 在 交换 机 上 仅 有 一 个 生成 树 实例 , 而 MSTP 可 
以 自 定义 多 个 生成 树 实例 ， 这 允许 用 户 映射 多 个 VLAN 到 不 同 的 生成 树 实例 (生成 树 拓 
扑 )。 每 个 生成 树 实例 的 拓扑 不 同 ， 使 网 络 流量 (基于 VLAN) 按 不 同 的 拓扑 转发 ， 提 
高 网 络 链 路 的 使 用 效率 ， 避 免 链 路 闲置 ， 这 种 流量 的 负载 分 担 是 实例 间 的 负载 分 担 。 目 
前 没有 任何 一 种 生成 树 协议 能 做 到 在 单个 实例 内 多 条 链 路 间 负 载 分 担 ( 不 考虑 Eth-Trunk 
技术 )。 

相 比 于 STP 及 RSTP 协议 ，MSTP 的 优点 是 : 

。 负载 分 担 : 多 个 VLAN 的 流量 使 用 不 同 的 拓扑 来 分 担 网 络 的 流量 ; 
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e 元 余 性 : 一 个 实例 的 拓扑 发 生变 化 ， 不 会 影响 到 其 他 实例 拓扑 。 
MSTP 的 缺点 是 : 
e。 相 比 于 单 拓扑 模型 的 STP 和 RSTP，MST 开销 稍 大 ; 
。 在 多 区 域 (Region) 场景 下 ，MST 在 区 域 边界 上 没有 负载 分 担 的 能 
。 在 MST 的 多 区 域 中 ， 会 存在 次 优 路 径 问题 。( 请 参考 后 面 示例 ) 


9.4.2 MST 原理 


MST 目前 是 华为 交换 机 上 默认 的 生成 树 协议 , 它 最 大 的 优点 是 可 以 自 定义 多 个 生成 
树 实例 ， 但 它 可 自 定义 多 个 实例 的 这 个 优点 仅 限于 在 单个 Region 中 。MST 把 两 层 交 换 
平面 划分 为 多 个 Region, 任何 一 台 交 换 机 只 能 属于 一 个 Region。 它 的 区 域 划 分 方式 有 些 
像 IS-IS 的 区 域 划分 , 区 域 边界 在 链 路 上 。MST 的 多 实例 特性 是 Region 内 的 概念 , Region 
间 享 受 不 到 多 实例 的 优点 ， 任 何 VLAN 的 流量 在 Region 间 都 是 按 一 个 拓扑 转发 的 。 

建议 尽量 使 用 单 Region 设计 ， 使 用 
多 个 Region 会 增加 设计 的 复杂 性 ， 并 
丧失 多 实例 的 负载 分 担 的 优点 ， 如 下 例 
所 示 。 

图 9-58 中 有 五 台 交 换 机 ， 分 布 在 两 
个 Region 中 , 每 个 Region 内 各 自 定义 了 
多 个 实例 ，Regionl 和 Region2 内 PC 节 
点 间 流 量 互 访 只 能 使 用 两 根 区 域 间 链 路 
中 的 一 根 。 上 图 选择 SW2 和 SW4 间 端 
口 4 转发 区 域 间 流量 。 

以 下 是 MST 的 术语 描述 。 

9.4.2.1 MST Configuration ID 

MST 交换 机 使 用 MST Configuration 图 9-58 MST 多 区 域 
ID 来 标识 自己 ，Configuration ID 由 以 下 三 个 参数 构成 。 处 在 同一 个 Region 中 的 交换 机 
其 Configuration ID 必须 一 样 。 每 台 MST 交换 机 在 配置 MST 时 都 会 配置 以 下 参数 。 

e ”区 域名 字 (Region name): 用 来 定义 区 域名 ， 大 小 写 敏感 ， 默 认 值 为 空 。 

。 ”修订 号 码 (Revision-level): 数值 范围 为 0 一 65535， 默 认 是 0。 

。 ”VLAN 和 实例 (Instance) 的 映射 关系 : 为 每 个 实例 映射 多 个 VLAN， 默 认 下 所 

有 VLAN 都 映射 到 一 个 实例 。 

BPDU 中 包含 上 述 Configuration ID， 但 其 中 并 没有 直接 携带 VLAN 和 实例 的 映射 ， 
BPDU 携带 的 是 VLAN 和 实例 映射 内 容 被 Hash 计算 后 所 生成 的 Hash 值 , 这 可 减少 携带 
内 容 大 小 ， 参 考 后 面 MST 报 文 结构 。 

9.4.2.2 Region 

交换 机 启动 之 初 会 互 发 MST BPDU，BPDU 中 包含 Configuration ID， 如 果 交 换 机 的 
Configuration ID 一 致 ， 则 两 台 交 换 机 在 同一 个 Region 中 ， 否 则 交换 机 彼此 不 在 同一 个 
Region 中 。 

MST 交换 机 构成 的 网 络 , 称 为 MST Domain (MST 交换 域 )。 而 其 中 Configuration ID 


Resgionl 


Region2 
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一 致 的 交换 机 所 构成 的 区 域 称 为 MST Region (MST 区 域 )。 一 个 MST Domain 可 以 由 一 
个 或 多 个 MST Region 构成 。 

交换 机 依据 其 所 在 的 位 置 而 称 为 区 域内 交换 机 和 区 域 边界 交换 机 。 连 接 其 他 区 域 的 
链 路 是 区 域 间 链 路 ， 这 个 端口 称 为 区 域 边界 端口 。 

图 9-58 中 ，SW1 是 区 域内 交换 机 ， 端 口 1 和 2 是 区 域内 端口 ，SW2 是 区 域 边界 交 
换 机 ， 其 端口 1 和 3 是 区 域内 链 路 ， 而 端口 4 是 区 域 边界 端口 。 同 理 , SW3、SW4、SW5 
都 是 边界 交换 机 ， 它 们 都 有 边界 端口 〈 收 到 不 同 Configuration ID )。 

示例 : 图 9-58 中 ，SW1、SW2 和 SW3 在 区 域 ABC 中 。SW4 和 SW5 在 区 域 CDE 
中 ，VLAN10 使 用 实例 2，VLAN20 使 用 实例 3， 请 完成 上 述 需求 的 MST 配置 。( 以 下 
仅 列 出 SW4 的 配置 ， 其 他 交换 机 配置 略 ) 


# 

[SW4]stp region-configuration 
[SW4-mst-region]region-name CDE 
[SW4-mst-regionjrevision-level 10 
[SW4-mst-regionlinstance 2 vlan 10 
[SW4-mst-region]instance 3 vlan 20 





[SW4-mst- ctive region-configuration 
Info: This operation may take a few seconds. Please wait for a moment...done. 
[SW4-mst-region]quit 
# 
[SW4]dis stp region-configuration 
Oper configuration 
Format selector :0 
Regionname” ~ :CDE 
Revision level :10 


Instance VLANs Mapped 


0 1t09, 11 to 19, 21 to 4094 
区 10 
3 20 

# 

说 明 : 


上 述 NST 配置 一 定 要 使 用 active region-configuration 命令 激活 ， 否 则 不 会 生效 ， 


另外 ，revision-level 可 以 不 定义 ， 默 认 值 为 0。 

9.4.2.3 ”生成 树 实例 一 一 MSTI 和 IST 

MST 引入 了 生成 树 实例 的 概念 , 每 个 生成 树 实例 就 是 一 个 独立 的 生成 树 拓扑 ，MST 
定义 要 求 每 个 自 定 义 的 生成 树 实例 仅 出 现在 区 域内 。 一 个 区 域内 的 链 路 可 以 同时 出 现在 
多 个 生成 树 实例 中 , 但 其 角色 和 状态 可 能 不 一 样 , 而 区 域 间 边界 链 路 上 不 存在 多 个 实例 ， 
端口 只 有 一 种 状态 ， 转 发 或 阻塞 ， 这 依据 边界 端口 在 实例 中 的 角色 而 定 。 

MST 实例 分 系统 默认 实例 (实例 0) 和 用 户 自 定 义 实例 〈 实 例 1、 实 例 2 等 ) 

在 区 域内 ， 每 个 自 定义 的 实例 称 为 MSTI (MST Instance)， 每 个 实例 有 对 应 的 ID 
(1-4094)。 自 定义 的 多 个 实例 可 以 使 用 不 同 的 拓扑 ， 流 量 可 以 使 用 不 同 的 转发 路 径 ， 所 
以 在 区 域内 可 以 很 容易 实现 负载 分 担 。 

IST 〈Internal Spanning Tree Instance) 是 MST 交换 机 上 默认 存在 的 生成 树 实 例 ， 它 
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是 特殊 的 MST 实例 ， 实 例 ID 为 0， 所 有 VLAN 默认 都 映射 到 IST 实例 。 如 果 没 有 定义 
其 他 MST 实例 ， 任 何 VLAN 的 数据 默认 都 使 用 生成 树 实例 0 的 拓扑 转发 ， 而 交换 机 则 
相当 于 单 实例 的 RSTP 模式 交换 机 。 

图 9-59 中 ， 在 Regionl 内 定义 MST 实例 1 和 MST 实例 2， 实例 间 彼 此 独立 。 


Regionl 


Region2 





图 9-59 MST 多 实例 一 一 MSTI1 和 MSTI2 


MST 实例 (MSTI) 的 特点 : 
MSTI 可 以 与 一 个 或 者 多 个 VLAN 对 应 ,但 一 个 VLAN 只 能 与 一 个 MSTI 对 应 ; 
每 个 MSTI 独立 计算 自己 的 生成 树 ， 互 不 干扰 ; 
每 个 MSTI 的 生成 树 计算 使 用 802.1w 算法 ; 
每 个 MSTI 的 生成 树 可 以 有 各 自 不 同 的 根 、 不 同 的 拓扑 ， 各 自 的 树 根 称 为 区 域 根 ; 
每 个 端口 在 不 同 MSTI 上 的 生成 树 参 数 可 以 不 同 ; 
每 个 端口 在 不 同 MSTI 上 的 角色 、 状 态 可 以 不 同 ; 
每 个 MSTI 的 拓扑 通过 命令 配置 决定 ; 
每 个 MSTI 中 的 端口 都 是 区 域内 端口 ， 非 边界 端口 ; 
区 域 中 所 有 MSTI 共用 区 域 间 端口 。 
例 : 图 9-59 中 ， 区 域 ABC 中 包含 SW1、SW2 和 SW3 交换 机 ， 通 过 命令 调整 树 根 
的 位 置 ， 使 实例 1 的 根 桥 是 SW2， 实 例 2 的 根 桥 是 SW3。 如 果 各 实例 的 当前 根 桥 失效 ， 
使 SW2 是 实例 2 的 根 桥 ，SW3 是 实例 1 的 根 桥 。 
[SW2]STP instance 1 root primary 
[SW2]STP instance 2 root secondary 
igi 
[SW3]STP instance 1 root secondary 
9.4.2.4 CIST (Common and Internal Spanning Tree ) 


MST 实例 仅 出 现在 每 个 区 域内 , 并 不 出 现在 区 域 间 , 如 果 把 每 个 区 域 看 作 是 一 台 “ 大 
的 交换 机 ” 则 连接 这 些 “ 交 换 机 ”的 树 称 为 CST Common Spanning Tree)。CST 在 区 
域 间 连接 每 个 区 域 的 IST/MST 实例 。 区 域内 IST 和 区 域 间 的 CST 连接 在 一 起 构成 的 这 
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棵 树 称 为 CIST。 
CIST 是 遍及 整个 MST 域 (Domain) 中 交换 机 的 一 棵 树 。 这 棵 树 在 区 域内 的 部 分 就 
是 每 个 区 域 中 实例 0， 在 区 域 间 的 部 分 就 是 CST。 
不 论 是 MST 实例 、IST 实例 ， 还 是 CST， 都 使 用 802.1w 算法 来 计算 树 的 拓扑 。 
图 9-60 中 共有 3 个 区 域 ，MSTI 在 每 个 区 域 各 定义 两 个 。 如 图 9-60 所 示 ， 区 域 1 中 


定义 了 MSTI2 和 MSTI4。 
egioni SW 1 Regionl : 
1| VLAN2 映射 实例 2 
1| VLAN4 映射 实例 4 
















SW2 SW3 
i 一 一 一 一 一 一 一 一 一 一 一 一 一 一. 一 一 8 

Region2: Region3: 

VLAN2 映射 实例 2 VLAN2 映射 实例 2 

VLAN3 映射 实例 3 和 VLAN4 映射 实例 4 

i 和 -和 = 一 一 一 一 一 一 一 Ee es ee et en hey 1 
| Region2 | | 、SW7 Region3 | 
1 | I | 
| | I | 
1 | | | 
1 I 1 | 
| | 
I SW61 1SW8 | 
1 RE Te SW9 | 
请 Ne a L tie ent Dy i i sh en a i a i a a | 


图 9-60 


一 个 MST 交换 域 ， 三 个 MST 区 域 


图 9-61 是 图 9-60 MST 域 中 区 域内 的 实例 : 各 区 域 中 的 IST 及 MST 中 。 其 中 ， 左 
图 是 IST 的 实例 ， 右 图 是 每 个 Region 中 的 MSTI。 


MSTI2 MSTI4 


Regionl 


MSTI 2 MSTI 3 


Region2 


MSTI2 MSTI4 





Region3 
三 个 区 域 中 IST 和 MST 实例 


图 9-61 
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区 域 间 的 CST: 三 台 “ 大 交换 机 ”中 ， 上 面 的 交换 机 是 “ 根 桥 ” 交 换 机 (CIST root 
在 区 域 1 中 )。 图 9-62 中 ， 交 换 机 间 链 路 拓扑 即 是 CST。 


Regionl 





Region2 gl 
图 9-62 区域 间 的 CST 树 


图 9-63 中 ，CIST 由 各 区 域 IST 和 CST 构成 。 


Regionl 


Region2 Region3 





SWI 





SW5 SW6 SWS8 SW9 SW SW6 SWE SW9 


图 9-63 CIST 构成 


9-63 中 ， 每 个 区 域 中 IST 和 区 域 间 CST 一 起 构成 CIST 拓扑 。 
9.4.2.5 CIST 树 根 ( CIST root )， 主 桥 〈(Master ) 和 区 域 根 桥 ( Regional root ) 


1. 网 桥 ID 
在 MST 网 络 中 ， 如 果 交 换 机 上 有 多 个 实例 ， 则 交换 机 在 每 个 实例 中 都 有 唯一 的 网 
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桥 ID， 网 桥 ID 的 构成 如 图 9-64 所 示 ， 包 含 3 个 字 域 。 
Bridge Priority: 4bit， 默 认 是 二 进 制 1000.000000000000， 它 可 以 在 不 同 实例 中 定义 
不 同 的 值 。 ' 
Extend System ID :12 bit， 在 MST 中 ,代表 生成 树 实例 号 ,为 0 时 则 代表 IST, 为 1 
则 代表 实例 1。 
MAC Address: 48bit， 标 识 每 台 交 换 机 的 唯一 的 硬件 地 址 ， 该 值 在 每 个 实例 中 都 


BSBytes 一 一 
Bridge Extend 
Ee re 和 
4bits 12bits 48bits 
图 9-64 桥 ID 构成 
例 ， 网 桥 ID: 


| 1000 | 1 | 0001.0002.0003 | 
这 是 交换 机 0001.0002.0003 上 实例 1 的 网 桥 ID。 


| 0 | 0001.0002.0003 


这 是 交换 机 0001.0002.0003 上 实例 0 的 网 桥 ID。 
2. CIST 根 桥 (CIST Root )， 主 桥 (Master Root ) 和 区 域 根 桥 (Regional Root ) 
CIST 树 的 树 根 称 为 CIST 树 根 。 
整个 交换 域 中 , 每 台 交 换 机 上 都 有 实例 0, 其 中 网 桥 ID 最 小 的 那 台 交 换 机 就 是 CIST 
树 的 树 根 。 图 9-60 中 SW1 就 是 CIST 树 根 。 
。 区域 根 (RegRoot) 是 在 每 个 区 域 中 的 MST 实例 的 根 桥 ， 它 是 该 实例 中 桥 ID 
最 小 的 那 台 交 换 机 。 实 例 0 的 根 桥 也 可 以 称 为 区 域 根 桥 (同时 也 是 主 桥 )。 
。 CIST 根 桥 , 全 网 络 就 一 个 。 在 MST Domain 中 ，CIST 根 桥 是 实例 0 中 桥 ID 最 
小 的 那 台 交 换 机 。 
。 主 桥 ， 每 个 区 域 各 一 个 。 主 桥 是 在 每 个 区 域 中 的 IST 的 根 桥 。 在 CIST 根 桥 所 
在 的 区 域 中 ， 主 桥 就 是 CIST 根 桥 。 在 其 他 区 域 中 , 主 桥 一 定 是 距离 CIST 根 桥 
“最 近 ” 的 交换 机 。 这 个 “最 近 ” 是 仅 考虑 区 域 间 路 径 而 言 的 。 可 把 每 个 Region 
看 成 一 台大 的 交换 机 ， 这 台 “ 交 换 机 ”内 部 的 路 径 成 本 不 在 考虑 范围 之 内 。 区 
域 中 主 桥 的 选择 不 一 定 是 桥 ID 最 小 的 那 台 交换 机 ， 非 CIST 根 桥 所 在 的 区 域 ， 
主 桥 一 定 是 边界 交换 机 。 
。 ”区域 根 桥 ， 每 个 区 域 中 每 个 实例 都 有 各 自 的 区 域内 根 桥 。 
例 : 图 9-65 中 ， 区 域 间 链 路 SW2-SW4、SW3-SW7 及 SW6-SW8 的 链 路 成 本 各 为 
20000， 用 交换 机 编号 作为 网 桥 ID。SW1 的 桥 ID 最 小 ，SW10 桥 ID 最 大 。 
图 9-65 中 SW1 是 所 有 IST 中 桥 ID 最 小 的 交换 机 ， 所 以 它 是 CIST 根 桥 (CIST 
Root)。 
9-65 中 有 三 个 区 域 ， 在 区 域 1 中 ， 主 桥 即 是 CIST 根 桥 ， 图 中 SW1 是 主 桥 ; 在 
区 域 2 中 ， 主 桥 是 SW4， 区 域 3 中 主 桥 是 SW7。( 区 域内 路 径 不 参与 计算 ， 区 域 间 的 路 
径 成 本 是 选择 Region2 和 Region3 中 主 桥 的 依据 ) 具体 计算 过 程 参 考 后 面 章 节 。 
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T[ 王 一 
|| Regionl : 

上 | VLAN2 映射 实例 2 

1| VLAN4 映射 实例 4 

|| 基 他 VLAN 映射 IST 


Region3 : 

VLAN2 映射 实例 2 
VLAN4 映射 实例 4 
其 他 VLAN 映射 IST 





Regionl 


Region2: 

VLAN2 映射 实例 2 
VLAN3 映射 实例 3 
其 他 VLAN 映射 IST 





Region2 Region3 


图 9-65 多 个 区 域 构 成 的 MST 交换 网 络 


9.4.2.6 ”端口 角色 

在 STP/RSTP 中 ,端口 角色 分 为 RP、DP、AP、BP,， 但 是 在 802.1s 中 ， 又 在 上 述 基 
础 之 上 新 添加 了 边缘 端口 (Boundary Port) 和 主 端 口 (Master Port)。 以 下 称 CIST 根 桥 

1. 域 边缘 端口 (Boundary Port): 位 于 MST 域 的 边缘 并 连接 其 他 MST 区 域 的 端 
口 。 域 边缘 端口 出 现在 CST/CIST 上 ， 是 CST/CIST 的 端口 状态 ， 主 端口 也 是 域 边缘 
端口 。 

图 9-65 中 端口 1 一 6 都 是 域 边缘 端口 。 

2. 主 端口 (Master Port): 在 非 CIST 根 桥 所 在 区 域 中 的 主 桥 交 换 机 上 ， 实 例 0 的 
RP 端口 在 其 他 MST 实例 中 被 称 为 主 端 口 (Master Port)， 它 是 区 域 中 其 他 实例 到 CIST 
根 桥 的 最 近 端 口 ， 也 是 主 桥 交换 机 上 的 边界 端口 ， 它 的 端口 状态 和 IST 实例 中 的 RP 端 
口 一 样 ， 其 最 终 状态 一 定 是 转发 状态 的 端口 ， 一 定 是 区 域内 所 有 其 他 实例 的 数据 访问 
CIST 根 桥 所 要 经 过 的 端口 。 

图 9-65 中 ， 端 口 6 是 区 域 2 中 的 Master 端口 ， 端 口 3 是 区 域 3 中 的 Master 端口 。 

说 明 : 

在 CIST 根 桥 所 在 的 区 域 ， 主 桥 上 没有 主 端口 。 端 口角 色 的 计算 参考 后 面 的 章节 .。 

9.4.2.7 MST BPDU 

1. 报 文 结构 

MST 中 可 以 定义 多 个 实例 ， 但 所 有 自 定 义 的 实例 和 IST 实例 的 拓扑 都 是 用 一 份 
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BPDU 来 传递 的 。 网 络 中 定义 的 MST 实例 使 用 M 记录 (M-Record) 来 承载 其 拓扑 信息 。 
一 个 Region 中 定义 多 少 MST 实例 ，BPDU 中 就 包含 多 少 个 M 记录 。MSTP 报 文 格式 如 
图 9-66 所 示 。 


MST 
special 
fields 
102 


103-39+Version 
3 Length 





图 9-66 ”MSTP 报 文 格式 


表 9-5 MST 报 文 内 容 说 明 
Protocol Identifier 协议 标识 种 
Protocol Version Identifier ”| ”1 | 协议 版 本 标识 符 ，STP 为 0，RSTP 为 2，MSTP 为 3 


BPDU 类 型 : 
。 0x00: STP 的 Configuration BPDU 

BPDU Type 和 ee STP 的 TCN BPDU (Topology Change Notification 
。 0x02: RST BPDU (Rapid Spanning-Tree BPDU) 或 者 MST 
BPDU (Multiple Spanning-Tree BPDU) 

CIST Flags CIST 标志 字段 


CIST RootIdentifier 。 | 8 | CIST 根 桥 设备 ID 


CIST 外 部 路 径 开销 指 从 本 交换 设备 所 属 的 MST 域 到 CIST 
CIST External Path Cost 4 根 交 换 设 备 所 属 的 MST 域 的 累计 路 径 开销 。CIST 外 部 路 径 
开销 根据 链 路 带宽 计算 
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”字段 内 容 人 
| CisT 的 城 要 交 DD 即 IST Master 的 ID。 如 果 总 根 在 
这 个 域内 ， 那 么 域 根 交换 设备 ID 就 是 总 根 交换 设备 ID 


CIST Port Identifier 本 端口 在 IST 中 的 指定 端口 ID 


Message Age BPDU 报 文 的 生存 期 
自 二 
| 2 | 


CIST Regional Root Identifier 


BPDU 报 文 的 最 大 生存 期 ， 超 时 则 认为 到 根 交 换 设备 的 链 路 
故障 


Hello 定时 器 ， 缺 省 为 2 秒 
Forward Delay Forward Delay 定时 器 ， 缺 省 为 15 秒 
Version 1 Length | Versionl BPDU 的 长 度 ， 值 固定 为 0 
Version 3 Length Version3 BPDU 的 长 度 
MST Configuration Identifier MST 配置 标识 ， 表 示 MST 域 的 标签 信息 ， 包 含 4 个 字段 


CIST 内 部 路 径 开销 指 从 本 端口 到 IST Master 交换 设备 的 累计 
OLS Tntemal Root PathiGont 展 贤 路 径 开销 。CIST 内 部 路 径 开销 根据 链 路 带宽 计算 


CIST Bridge Identifier 。 | 8 | CIST 的 指定 交换 设备 ID 
CIST Remaining Hops 击 通 BPDU 报 文 在 CIST 中 的 剩余 跳 数 


MSTI Configuration Messages MSTI 配 置信 息 。 每 个 MSTI 的 配置 信息 占 16 Bytes， 如 果 有 
(may be absent) n 个 MSTI 就 占用 nX16Bytes 


Max Age 


Hello Time 


e CIST RootID: CIST 根 桥 的 桥 ID。 

CIST External Path Cost: 区 域 间 路 径 成 本 ， 即 CIST 在 区 域 间 的 路 径 成 本 。 

CIST Master Root ID: 是 区 域 中 IST 实例 的 主 桥 ID。 

CIST Port ID: 流出 BPDU 的 端口 ID。Port ID = 了 Priority (4 位 ) + 端口 号 (12 位 )。 
端口 优先 级 必须 是 16 的 整数 倍 。 

出 现在 BPDU 标准 部 分 中 ， 是 CIST 在 区 域 间 的 拓扑 信息 。 

e。 在 BPDU MST 扩展 部 分 中 ，CIST Internal Root Path Cost 和 CIST BID 是 CIST 

在 区 域内 IST 实例 的 拓扑 信息 。 

CIST Internal Root Path Cost: 是 Region 内 当前 交换 机 到 主 桥 的 成 本 。 

。 CIST Bridge ID: 发 送 BPDU 的 交换 机 桥 ID。 

。 报 文 的 最 后 携带 区 域内 的 实例 的 拓扑 信息 ， 图 中 的 MSTID2 和 MSTID 3 就 是 


实例 2 和 实例 3 的 内 容 。 
示例 : 
在 每 个 Region 内 的 MST 实例 的 拓扑 信息 仅 在 Region 有 效 且 有 意义 ， 不 在 Region 
间 通 告 。 
说 明 : 


™ 


域 边界 交换 机 上 ， 边界 端口 中 DP 端口 在 所 有 的 实例 中 都 是 DP 端口 ， 从 位 置 上 看 端口 
是 边界 端口 ， 但 该 端口 并 没有 收 到 任何 BPDU， 并 无 法 判定 自己 是 边界 端口 ， 所 以 通告 的 
BPDU 中 , Region 内 的 MST 实例 信息 依然 出 现在 BPDU 内 .下 游 的 接收 交换 机 是 边界 交换 机 ， 
并 不 关心 其 他 Region 中 的 NST 实例 信息 ， 会 忽略 该 信息 ， 仅 需要 了 解 CIST 实例 的 信息 。 
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例 ， 图 9-65 中 端口 1 是 DP 端口 ， 其 通告 的 BPDU 中 仍 包含 其 他 实例 的 M-Record。MSTP 报 
文 抓 包 格式 如 图 9-67 所 示 。 


spanning Tree Protocol 
Protocol Identifier: Spanning Tree Protocol1 (0x0000) 
Protocol version Identifier: Multiple spanning Tree (3) 
BPDU Type: Rapid/Multiple Spanning Tree (0x02) 
BPDY flags: Ox7c (Agreement, Forwarding, Learning, Port Role: Designated) 
Root Identifier: 0 / 0 / 4c:1f:cc:91:12:80 
Root Path Cost: 20000 
田 Bridge Identifier: 16384 / 0 / 4c:1if:cc:f4:30:e8 
Port identifier: Ox8006 
Message Age: 1 
Max Age: 20 
Hello Time: 2 
Forward Delay: 15 
version 1 Length: 0 
version 3 Length: 96 
已 MST Extension 
MST Config ID format selector: 0 
MST Config name: CDE 
MST Config revision: 10 
MST Config digest: 02cfb95fcc5bdd54d62f442a98asbbfb 
CIST Internal Root Path Cost: 
加 CIST Bridge Identifier: 16384 / 0 / 4c:1f:cc:f4:30:e8 
CIST Remaining hops: 20 
田 MSTID 2, Regional Root Identifier 32768 / 4c:1f:cc:11:40:22 
困 MSTID 3, Regional Root Identifier 32768 / 4c:1f:;cc:11:40:22 


图 9-67 MSTP 报 文 抓 包 格 式 


困 图 


2. BPDU 报 文 格式 

MSTP 的 BPDU 报 文 存在 两 种 格式 ， 一 种 是 IEEE 802.1s 规定 的 标准 格式 ， 一 种 是 
华为 私有 格式 ， 当 和 第 三 方 设备 互 操作 时 ， 华 为 交换 机 会 自动 匹配 使 用 的 格式 。 华 为 的 
端口 收发 MSTP 报 文 格式 可 配置 (stp compliance) 功能 ， 能 够 实现 对 BPDU 报 文 格式 的 
自 适应 一 一 auto、dotls、legacy。 默 认 是 自 适 应 。 

3.MSTI 和 IST 的 拓扑 信息 

MSTI 和 CIST 都 是 根据 “优先 级 向 量 ” 来 计算 各 自 的 拓扑 ， 这 些 优先 级 向 量 信息 都 
包含 在 上 述 MST BPDU 中 。 交 换 机 间 互 相交 换 MST BPDU 来 计算 生成 各 自 实例 的 拓扑 。 

优先 级 向 量 : 

参与 CIST 计算 的 优先 级 向 量 为 

{ CIST 根 桥 ID， 区 域外 部 路 径 开 销 ， 主 桥 ID， 区 域内 部 路 径 开 销 ， 指 定 交 换 机 桥 
ID， 指 定 端口 ID， 接收 端口 ID }; 

参与 MSTI 计算 的 优先 级 向 量 为 2 

{ 区 域 根 桥 ID, 区 域内 部 路 径 开 销 , 指定 交换 机 桥 ID, 指定 端口 ID, 接收 端口 ID }。 

4. 区 域内 和 区 域 间 BPDU 内 容 分 析 

示例 : 

图 9-68 包含 3 个 区 域 , 分别 是 Region1、Region2 和 Region3。 其 中 ，SW1 是 CIST 
根 桥 。 分 析 BPDU 转发 到 SW9 的 过 程 。 图 中 1，2，…，8 数字 是 交换 机 间 生 成 树 端口 
成 本 。 

BPDU 从 CIST 根 桥 产 生 ，BPDU 在 区 域内 传递 时 ， 区 域 间 的 CIST 部 分 的 拓扑 信息 
不 变化 ， 仅 实例 的 拓扑 信息 变化 ， 实 例 包 含 IST 和 MST 实例 。BPDU 在 区 域 间 传 递 时 ， 
区 域内 的 拓扑 信息 对 邻居 区 域 没 有 影响 。 
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Region 1 





Region 2 Region 3 
图 9-68 ”Region 间 BPDU 变化 


BPDU 

分 析 过 程 : 以 下 内 容 是 按照 BPDU 的 内 容 来 排列 拓扑 信息 的 ， 并 非 按 优先 级 向 量 的 

比较 顺序 排列 。 

1. SW1 是 ClIST Root， 由 SW1 到 SW2 的 BPDU: 
CIST RootID =SWI 
(external) PathCost =0 
RegionalBID =SWI 
PortID =SW1 Port ID 
InternalPathCost =0 
BID =SWI 

2. 在 Region1 中 ，SW2 流 给 SW3 的 BPDU 
CIST RootID =SW1 
(external) PathCost =0 
RegionalBID =SWI 
PortID =SW2 Port ID 
InteralPathCost =0+1 
BID =SW2 

3. 从 SW3 流出 时 
RootID =SWI1 
(external) PathCost =0 
RegionalBID =SW1 
PortID = SW3 Port ID 
InternalPathCost = 1+2 
BID =SW3 

4. SW4 流出 时 
RootID =SWI 
(external) PathCost =3 
RegionalBID =SW4 
PortID = SW4 port id 
IntermalPathCost =0 
BID =SW4 

5.， SW5 流出 时 
RootID =SW1 
(external) PathCost 二 
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RegionalBID =SW4 
PortID = SWS port id 
InternalPathCost =4 
BID =SW5 
6.、SW6 流出 时 
RootID =SWI 
(external) PathCost =3 
RegionalBID =SW4 
PortID = SW6 port id 
InternalPathCost =9 
BID =SW6 
7. SW7 流出 时 
RootID =SWI! 
(external) PathCost =9 
RegionalBID =SW7 
PortID = SW7 port id 
InternalPathCost =0 
BID =SW7 
8 SW8 流出 时 
RootID =SW1 
(external) PathCost =9 
RegionalBID =SW7 
PortID = SW8 port id 
InternalPathCost =7 
BID =SW8 


# 


9.4.3 ”MST 拓扑 计算 


9.4.3.1 区域 间 CIST 和 区 域内 MST 端口 角色 计算 过 程 
。 在 CIST 树 上 计算 端口 角色 使 用 以 下 优先 级 向 量 。 
CIST 计算 向 量 内 容 及 顺序 : 

{ CIST 根 桥 ID， 

外 部 路 径 开 销 ， 

区 域 主 桥 ID， 

区 域内 路 径 开 销 ， 

指定 交换 设备 桥 ID， 

指定 端口 ID， 

接收 端口 ID } 

。 在 区 域内 的 MST 实例 上 计算 端口 角色 使 用 以 下 向 量 。 

MSTI 计算 比较 向 量 : 

{ 区 域 根 桥 ID， 

区 域内 部 路 径 开销 ， 

指定 交换 设备 桥 ID， 

指定 端口 ID， 

接收 端口 ID } 

。 计算 及 比较 原则 。 

任何 实例 下 的 任何 交换 机 在 收 到 BPDU 后 都 开始 选择 收 到 最 好 BPDU 的 端口 为 根 


~ 
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首先 ， 比 较 根 桥 交 换 机 ID。 

如 果 CIST 根 桥 交 换 机 ID 相同 ， 再 比较 外 部 路 径 开销 。 

如 果 外 部 路 径 开 销 相 同 ， 再 比较 区 域 主 桥 ID。 

如 果 区 域 主 桥 ID 仍然 相同 ， 再 比较 内 部 路 径 开 销 。 

如 果 内 部 路 径 仍 然 相 同 ， 再 比较 指定 交换 设备 ID。 

如 果 指 定 交 换 设备 ID 仍然 相同 ， 再 比较 指定 端口 ID。 

如 果 指 定 端口 ID 还 相同 ， 再 比较 接收 端口 ID。 

9.4.3.2 区域 间 CIST 实例 拓扑 计算 

给 出 图 9-69 的 CIST 拓扑 中 各 端口 角色 的 计算 过 程 ， 假 定 所 有 端口 成 本 为 1， 图 中 
数字 是 端口 号 ， 交 换 机 桥 ID 是 SW1<SW2<SW3 <…<SW10， 端 口 ID 依 端口 序号 而 定 ， 
如 41 是 SW2 上 边界 端口 的 端口 ID。 


ST 
口 ” 根 端口 /Master 端口 
〇 ”指定 端口 
XX Altemate 端口 


Region3 





图 9-69 MST 多 区 域 


第 1 步 ， 先 选 出 CIST 根 桥 ; 

第 2 步 ， 在 每 个 区 域 中 选 出 主 桥 (Master 交换 机 ); 

第 3 步 ， 在 主 桥 上 选 出 RP 端口 ; 

第 4 步 ， 在 其 他 区 域 间 链 路 上 计算 出 DP 及 AP/BP; 

第 5 步 ， 在 每 个 区 域 中 ，IST 和 MST 上 计算 出 相应 角色 的 端口 。 
计算 过 程 如 下 。 

。 第 1 步 : 选择 CIST 根 。 
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在 MST 交换 域 中 ，SW1 因 实 例 0 中 桥 ID 最 小 而 成 为 区 域 1 中 的 主 桥 ， 同 时 也 是 
MST 交换 域 中 的 CIST 根 桥 。 
9-69 中 10 台 交 换 机 启动 时 都 认为 自己 既是 CIST 根 桥 ， 同 时 也 是 区 域 主 桥 ， 所 
有 端口 都 是 DP/Discarding， 所 以 开始 向 外 发 送 自己 的 BPDU。 
例如 : CIST 向 量 内 容 { SW1, 0, SW1, 0,， SWI1, X}。 


说 明 : 

上 述 内 容 依次 代表 {CIST 根 桥 ID， 到 CIST 的 外 部 路 径 开销 ， 区 域 主 桥 ID， 区 域内 路 径 
开销 ， 指 定 交 换 机 ID， 端口 ID (此 处 用 X 来 表示 ) ]， 所 有 交换 机 产生 的 BPDU 经 过 比较 后 ， 
SW1 流出 的 BPDU“ 最 好 。” 


。 第 2 步 : 选择 区 域 主 桥 。 先 比较 区 域 间 成 本 ， 如 果 成 本 一 样 ， 再 比较 区 域 边界 

交换 机 的 桥 ID， 值 越 小 越 好 。 

(1) 在 Regionl 中 CIST 根 桥 就 是 该 区 域 主 桥 。 

(2) 在 Region2 和 Region3 中 主 桥 一 定 是 边界 交换 机 。 计 算 过 程 : 把 三 个 Region 
看 成 三 台大 的 “交换 机 ”， 选 择 区 域 主 桥 并 不 关心 区 域内 路 径 成 本 ， 仅 关心 边界 交 
换 机 到 CIST 根 桥 的 “区 域 间 路 径 ” 成 本 。 所 以 3 台 “ 大 交换 机 ” 间 链 路 依次 为 : 41- 
42，43-44， 及 45-46。 而 Regionl 是 “root” 交 换 机 ， 所 以 Region2 经 41-42 及 Region3 
经 43-44 链 路 到 CIST 根 桥 为 最 近 路 径 成 本 ， 所 以 SW4 和 SW7 是 各 自 相 应 区 域 的 
主 桥 。 

(3) 而 如 果 41-42 链 路 成 本 改 为 2， 而 43-44 及 45-46 链 路 成 本 都 为 1。 在 此 种 情况 
下 ， 在 Region2 中 SW4 和 SW6 边界 交换 机 到 CIST 根 桥 的 区 域 间 成 本 一 致 ， 要 继续 比 
较 两 台 边 界 交 换 机 的 (实例 0 中 ) 桥 ID。 由 于 SW4 优 于 SW6， 所 以 SW4 是 Region2 
中 主 桥 。 

。 第 3 步 : 决定 RP 端口。 在 主 桥 交换 机 上 选择 RP 端口 。 它 是 主 桥 到 CIST 根 桥 

的 最 小 路 径 成 本 端口 。 比 较 后 ， 如 果 成 本 一 样 ， 则 继续 比较 发 送 BPDU 的 指定 
交换 机 的 桥 ID， 数 值 越 小 越 好 。 如 果 指 定 桥 ID 仍然 一 样 ， 则 继续 比较 指定 交 
换 机 上 发 送 端口 的 端口 ID。 

图 9-70 中 ，SW4 主 桥 上 端口 42、 端 口 48 及 端口 50, 到 CIST 根 桥 的 成 本 一 样 是 1， 
其 他 区 域 间 链 路 的 成 本 也 是 1。 主 桥 上 的 RP 端口 是 Region2 中 数据 访问 CIST 根 桥 的 必 
经 之 路 。 根 据 CIST 向 量 {CIST root，external path cost ，master root，internal path cost ， 
Bridge ID，port ID} 的 内 容 ， 先 比较 每 个 端口 收 到 的 BPDU， 依 次 比较 CIST Root ID 及 
External path cost， 值 最 小 者 最 好 。 如 果 一 致 ， 再 依次 比较 指定 交换 机 桥 ID 及 端口 ID， 
值 最 小 者 好 。 

图 中 ，SW4 到 CIST 根 桥 的 三 条 区 域 间 路 径 上 的 外 部 路 径 成 本 一 样 ， 链 路 47-48 和 
链 路 41-42 上 指定 交换 机 是 SW2， 而 链 路 49-50 上 指定 交换 机 是 SW3，SW2<SW3， 且 
SW2 交换 机 上 端口 41 的 端口 ID 比 端 口 47 小 ， 所 以 SW4 上 端口 42 是 RP 端口 。 同 时 
主 桥 上 其 他 非 RP 端口 则 是 AP 端口 。 
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口 ” 根 端口 /Master 端口 
〇 ”指定 端口 
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Region3 





9-70 区 域 2 主 桥 上 有 3 个 区 域 边界 端口 一 一 端口 42、 端 口 48 及 端口 50 


说 明 : 
在 主 桥 上 选择 RP 端口 时 ， 主 桥 ID 和 Internal path cost 都 不 需 考 虑 。 因 为 在 此 时 主 桥 已 
经 是 SW4， 且 没有 区 域内 部 成 本 ， 所 以 不 子 考虑 。 


。 第 4 步 ，Region 中 其 他 边界 交换 机 上 的 端口 可 能 是 DP/AP 或 BP。 

(1) CIST 根 桥 所 在 Region 的 边界 交换 机 的 端口 都 是 DP 端口 (不 考虑 自 环 而 致 的 
BP 端口 )， 所 以 图 9-70 中 41、43、47、49 端口 都 是 DP 端口 。 

(2) 端口 45 及 46 分 别处 在 两 个 Region 的 边界 链 路 上 ， 在 该 链 路 上 比较 两 个 Region 
的 BPDU,， 分 别 是 {SW1，1，SW4，1，SW6， 端 口 45 ID} {SW1，1，SW7，1，SW8， 
端口 46 ID}。 主 桥 ID 不同， 所 以 SW6 通告 的 BPDU 优 于 SW8 通告 的 BPDU， 端 口 45 
是 DP 端口 ， 而 端口 46 则 是 AP 端口 。 

。 第 5 步 ， 在 每 个 Region 内 的 IST 或 MST 实例 上 计算 端口 。 

参考 下 节 。 

9.4.3.3 ”区 域内 拓扑 计算 一 一 MST 实例 拓扑 计算 和 IST 拓扑 计算 

区 域内 IST 和 MSTI 都 是 独立 的 实例 ， 有 各 自 的 树 根 ，IST 实例 的 树 根 是 本 区 域 中 
的 主 桥 ， 计 算 拓扑 也 是 参考 区 域内 到 主 桥 的 路 径 。 计 算 拓 扑 根据 BPDU 中 相应 实例 的 区 
域内 向 量 信息 计算 ，IST/MST 实例 使 用 { 主 桥 ID，Internal path cost，BID，Port ID }， 
如 果 向 量 信 息 一 致 ， 则 最 后 可 根据 自己 接收 端口 的 Port ID 来 决定 。 

图 9-71、 图 9-72、 图 9-73 分 别 是 IST 实例 及 MST 实例 的 各 自 端口 角色 。 

由 主 桥 RP 端口 流入 的 BPDU 经 过 Region 内 路 径 时 ,BPDU 中 CIST 根 桥 及 External 
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path cost 不 变化 。 

在 区 域 中 ， 主 桥 上 IST 实例 中 的 RP 端口 (边界 端口 ) 同时 也 是 其 他 MST 实例 中 的 
Master 端口 。 如 果 边 界 端口 在 IST 实例 中 为 转发 状态 ， 则 在 其 他 实例 中 也 一 定 为 转发 状 
态 。 如 果 边 界 端 口 在 IST 实例 里 阻塞 ， 在 其 他 实例 里 也 阻塞 。 






MST 实例 2 拓扑 
SWI 

六 人 辐 
| Regionl 1 
1 SI 1 SW2 SW3 IST 拓扑 
| | SWI 
1 / 
| | ”wm \DP 
1 1 7 \ 
| | MST 实例 4 拓扑 
| | SWI 

SW2 SW3 、| 
村 Mpp SW2 SW3 
/DP Regionl : 

VLAN2 映射 实例 2 /DP \DP 

VLAN4 映射 实例 4 pa & 

其 他 VLAN 映射 IST sm Bos 

; 一 一 一 CST 
\ DP 
2 DP \ 一 一 MST 实例 


/ \ 


图 9-71 Regionl 中 IST、MST 实例 2 和 MST 实例 4 生成 树 拓扑 


MST 实例 2 拓扑 ， 
SW4 “~ Master Port 








_ IST 拓扑 ， 
DP SW4 /RP 
SW5 SW6 
MST 实例 3 拓扑 / 
SW4 + Master Port 
Region2: DP 
VLAN2 映射 实例 2 SW5 SW6 
VLAN3 映射 实例 3 
其 他 VLAN 映射 IST es 
DP 
SW5 SW6 一 一 一 CST 
一 一 MSTI 


图 9-72 Region2 中 MST 实例 2 和 MST 实例 3 生成 树 拓扑 
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Master Port\、 MST 实例 2 拓扑 
SW7 SW9 
人 
~ 
SW8 RP\ IST 拓扑 
SW9 | 一 一 SWI0 
SW7 SW9 


| 
Master Pport\ MST 实例 4 拓扑 


SW8 
SW7 SW9 ”一 一 一 SWI0 
Region3: 
VLAN2 映射 实例 2 
VLAN4 映射 实例 4 SW8 村 SR 
其 他 VLAN 映射 IST EN SW10 MSTI 





图 9-73 ”Region3 中 的 MST 实例 2 和 实例 4 生成 树 拓扑 


示例 : 

场景 描述 及 需求 如 下 。 

图 9-74 中 整个 MST 域 是 一 个 交换 环境 , 也 是 一 个 大 的 广播 平面 , 以 VLAN10 为 例 ， 
在 所 有 交换 机 上 添加 VLAN10， 并 在 Regionl 中 ， 把 VLAN10 映射 给 IST， 在 Region2 
中 把 VLAN10 映射 到 MST 实例 2， 在 Region3 中 把 VLAN10 映射 给 MST 实例 4。 










CIT 

国 根 端口 /Master 端 口 
〇 ”指定 端口 

XX Altemate 端 口 


Region3 


图 9-74 VLANI10 在 Region 间 的 访问 路 径 


如 果 VLAN10 中 有 主机 PC1， 它 接 在 Region3 中 SW10 交换 机 上 ， 问 : 该 主机 能 否 
访问 Region2 中 SW6 上 的 VLAN10 主机 PC2， 转 发 路 径 是 怎么 样 的 ? 
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根据 图 9-71、 图 9-72、 图 9-73 及 VLAN10 在 各 区 域 中 的 映射 关系 ， 得 出 如 上 的 访 

问 路 径 。 
在 区 域 3 中 ， 源 自 PC1 的 VLAN10 数据 帧 沿 MST4 实例 拓扑 走 到 主 桥 (SW7) 上 

Master 端口 ， 经 SW3 进入 区 域 1， 并 沿 IST 实例 拓扑 流 到 边界 端口 41， 经 SW4 进入 区 

域 2， 在 区 域 2 中 经 主 桥 上 Master 端口 进来 ， 沿 区 域 2 中 MST2 的 拓扑 转发 到 PC2。 回 

程 路 径 一 致 ， 此 处 不 再 分 析 。 
9.4.3.4 ”区 域内 拓扑 计算 一 一 MSTI 及 1ST 实例 还 辑 拓扑 计算 


示例 1: 
SW1 SW2 
1 10 20 1 
< 2 30 30 2 < VLAN to Instance mappings: 
SS ET SS VLAN 10, 40 to MSTI I 


VLAN 20, 30 to MSTI2 
图 9-75 计算 实例 的 逻辑 拓扑 


图 9-75 中 有 两 台 交换 机 SW1 及 SW2，SW1 桥 ID<SW2 桥 ID, 使 用 三 条 链 路 互联 ， 
链 路 为 Trunk， 链 路 1 上 仅 允 许 VLAN10 及 20, 链 路 2 上 仅 允 许 VLAN20 及 30， 链 路 3 
仅 允 许 VLAN40。 请 分 析 图 9-75 SW1、SW2 上 VLAN10、20、30 和 40 的 VLAN 内 主 
机 能 否 互 相通 信 ? 

分 析 思 路 : 

分 析 是 否 连通 ,要 先 分 析 生 成 树 拓扑 ， 再 观察 使 用 的 VLAN 是 否 允 许 在 指定 链 路 上 
通行 。 

实例 0，IST 的 逻辑 拓扑 和 物理 拓扑 一 致 。 

其 他 MST 实例 ， 逻 辑 拓扑 和 物理 拓扑 不 一 致 ， 逻 辑 拓 扑 仅 包含 相 应 实例 的 VLAN 
所 在 的 拓扑 。 

分 析 过 程 : 

1. 实例 1 的 逻辑 拓扑 是 仅 含有 VLAN10 和 VLAN40 的 链 路 ， 图 9-76 中 ， 仅 链 路 1 
和 3 出 现在 逻辑 拓扑 中 ， 在 此 基础 上 进行 生成 树 剪裁 后 ，SW2 端口 3 阻塞 。 

仅 链 路 1 可 转发 数据 ， 且 其 上 仅 允 许 实例 1 中 的 VLAN10, 所 以 仅 VLAN10 内 的 主 
机 间 可 以 互通 。 

2. 实例 2 逻辑 拓扑 同上 ， 仅 包含 VLAN20 和 30 所 在 链 路 ， 所 以 逻辑 拓扑 包含 
图 9-77 所 示 的 链 路 1 及 链 路 2。 


名 一 一 名 印 一 一 印 


图 9-76 MST 实例 1 拓扑 图 9-77 MST 实例 2 拓扑 


图 9-77 是 实例 2 的 逻辑 拓扑 ， 进 行 生 成 树 前 裁 后 ， 拓 > 扑 仅 链 路 1 可 以 转发 数据 ， 又 
因为 链 路 上 仅 允 许 实例 2 中 的 YLAN20 的 流量 通过 ， 所 以 使 用 实例 2 的 VLAN20 可 以 
通 ， 而 VLAN30 不 能 通 。 
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VLAN to Instance mappings: 
VLAN 10, 40to MSTIO 
VLAN 20, 30 to MSTI2 





图 9-78 MST 实例 1 拓扑 


如 果 图 9-78 中 VLAN10 和 40 映射 到 实例 0， 则 实例 0 的 逻辑 拓扑 如 图 9-79 所 示 。 


SWI1 SW2 


S eas 
图 9-79 MST 实例 0 拓扑 


此 处 实例 0 的 拓扑 不 同 于 MST 的 其 他 实例 拓扑 ， 原 因 是 默认 所 有 VLAN 都 映射 到 
实例 0， 所 以 实例 0 逻辑 拓扑 等 同 于 物理 拓扑 。 
9.4.3.5 场景 练习 1 


VLAN to Instance Mappings: 
VLAN 10，20，30to MSTI1 
VLAN 40，50，60to MSTI2 


VLAN to Instance Mappings: 
FO/1 VLAN 10，20，30to MSTII 

VLAN 40, 50, 60 to MSTI2 
Region2 





图 9-80 ”MST 多 区 域 


示例 : 

公司 有 4 台 交 换 设备 ， 核 心 层 设 备 SW1 和 SW2 处 在 区 域 1， 汇 聚 层 设备 SW3 和 
SW4 处 在 区 域 2 中 ， 交 换 机 彼此 之 间 全 互联 ， 根 据 图 9-80 定义 VLAN 和 实例 的 映射 ， 
区 域 1 和 区 域 2 的 MST 区 域 配置 信息 如 下 。 请 分 析 上 图 核心 层 和 汇聚 层 的 访问 链 路 。 
如 果 4 台 设 备 在 同一 Region 中 会 如 何 ? 

配置 及 分 析 过 程 如 下 。 

SW1 和 SW2 MSTP 配置 : 


轩 

stp region-configuration 
region-name Regionl 
revision-level 10 
instance 1 vlan 10 20 30 
instance 2 vlan 40 50 60 
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active region-configuration 


## 

SW3 和 SW4 配置 : 

# 

stp region-configuration 

region-name Region2 

revision-level 10 

instance 2 vlan 10 20 30 

instance 3 vlan 40 50 60 

active region-configuration 

# 区 域名 字 大 小 写 敏感 

其 中 ， 桥 ID 是 SW1<SW2<SW3<SW4。 

。 ”如 果 把 上 下 2 个 Region 看 成 2 台 交 换 机 ， 中间 互 联 的 4 根 线 中 , 必然 有 3 根 线 

要 阻塞 。 

。 CIST 根 桥 为 SW1， 同 时 也 是 区 域 1 中 主 桥 。 

。 根据 9.4.3.2 节 计 算 主 桥 的 过 程 。 图 中 SW3 和 SW4 到 CIST 根 桥 的 区 域 间 路 径 
成 本 一 致 为 10， 继 续 比 较 Region2 中 边界 交换 机 桥 ID。 桥 ID 最 小 的 边界 交换 
机 就 是 相应 区 域 主 桥 ， 所 以 区 域 2 的 主 桥 是 SW3。 

e。 SW3 交换 机 上 G0/0/2 和 G0/0/3 端口 中 一 定 有 一 个 端口 是 RP 端口 。G0/0/3 端 
口 收 到 BPDU{SW1，0，SW1，0，SW1，SW1 Port ID}”，G0/0/2 端口 收 到 
BPDU {SW1，0，SW1，5，SW2，SW2 Port ID}， 主 桥 收 到 BPDU 后 ， 计 算 后 
可 知 ， 发 送 交 换 机 桥 ID.SW1< SW2， 所 以 端口 G0/0/3 是 主 桥 RP 端口 。 

配置 单 区 域 和 配置 多 区 域 相 比 ， 区 别 如 下 。 

1. 配置 单 区 域 时 ， 上 下 两 部 分 互 访 时 ， 如 果 SW1 是 根 桥 ， 则 PC3 和 PC4 流量 可 以 
通过 SW1-SW3 链 路 和 SW1-SW4 链 路 ， 经 过 根 桥 实 现 互 访 。 而 一 旦 配置 多 区 域 后 ， 仅 
SW1-SW3 链 路 是 2 个 区 域 间 的 访问 路 径 ， 流 量 集中 在 单 根 链 路 上 ， 会 形成 瓶颈 。 

2. PC4 访问 PC2 时 ， 在 配置 单 区 域 时 ， 访 问 路 径 SW4-SW1-SW2。 配 置 多 区 域 后 ， 
流量 访问 路 径 是 SW4-SW3-SW1-SW2。 图 中 SW3 和 SW4 间 路 径 成 本 大 , 但 区 域 间 互 访 ， 
流量 一 定 要 经 过 主 桥 访 问 CIST 根 桥 。 存 在 次 优 路 径 问 题 。 

根据 以 上 分 析 ， 多 区 域 会 造成 区 域 间 流量 没有 负载 分 担 能 力 ， 及 可 能 的 次 优 路 径 。 
如 非 必要 ， 尽 量 使 用 单 区 域 去 设计 生成 树 。 

9.4.3.6 场景 练习 2 

图 9-81 中 , SW1 是 CIST 根 桥 , 每 条 链 路 成 本 是 1, 桥 ID: SW1<SW4<SW11<SW22< 


SW33<SW44。 
请 分 析 SW4 访问 SW1 的 路 径 。 
分 析 如 下 。 


1. CIST 根 桥 是 SW1, 区 域 1 中 主 桥 是 SW1, 区 域 2 中 主 桥 是 离 SW1 最 近 的 SW11。 
同 理 ， 区 域 3 中 主 桥 是 SW33。 区 域 4 中 主 桥 是 SW4。 

2， 区 域 4 中 主 桥 的 SW4 上 ，RP 端口 是 G0/0/5 还 是 G/0/0/6? SW4 从 G0/0/5 收 到 
BPDU{SW1，1，SW11，1，SW44，SW44 Port ID}，SW4 从 G0/0/6 收 到 BPDU {SW1l， 
1, SW33, 1, SW22, SW22 Port ID}。 

根据 9.4.3.2 节 计 算 RP 端口 : SW4 根据 收 到 的 BPDU 计算 G0/0/5 和 G0/0/6 端口 到 
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CIST 根 桥 的 距离 为 2; 比较 发 送 BPDU 的 指定 桥 ID。 图 9-81 中 SW4 上 游 指 定 交 换 机 
分 别 是 SW44 和 SW22， 由 于 SW44>SW22， 所 以 SW4 上 RP 端口 是 G0/0/6。 






SWI 
G0/011 人 人. coo2 
AK 







Region 1 


GO/0/1 





Region 2 Region 3 









Region 4 


GO/0/S y 4 U2 : GO/0/6 


阁 
丰 






图 9-81 MST 多 区 域 


9.5 ”STP 其 他 保护 技术 


9.5.1 BPDU 保护 (BPDU protection ) 


在 交换 设备 上 ， 正 常情 况 下 ， 边 缘 端 口 不 会 收 到 RST BPDU。 如 果 有 人 伪造 RST 
BPDU 恶意 攻击 交换 设备 ， 当 边缘 端口 接收 到 RST BPDU 时 ， 交 换 设备 会 自动 将 边缘 
端口 设置 为 非 边 缘 端 口 ， 并 重新 进行 生成 树 计 算 ， 从 而 引起 网 络 震荡 。 为 加 强 网 络 的 
稳定 性 ， 可 在 接 入 层 交 换 设 备 上 启动 BPDU 保护 功能 ， 这 时 如 果 边 缘 端口 收 到 RST 
BPDU， 边 缘 端 口 将 被 error-down， 但 是 该 端口 仍 是 边缘 端口 ， 属 性 不 变 ， 同 时 通知 网 

为 防止 攻击 者 仿造 BPDU 报 文 导致 边缘 端口 属性 变 成 非 边缘 端口 ， 可 通过 执行 命令 
stp bpdu-protection 配置 交换 设备 的 BPDU 保护 功能 。 

# 使 能 交换 设备 的 BPDU 保护 功能 。 

<HUAWEI>system-view 

[EUAWEI] stp bpdu-protection 

在 配置 了 BPDU 保护 功能 后 ， 被 关闭 的 端 日 默认 不 会 自动 恢复 ， 只 能 由 网 管 员 先 执 
行 shutdown 命令 ， 再 执行 undo shutdown 命令 手动 恢复 ， 也 可 以 在 接口 下 执行 restart 命 
令 重 启 端口 。 

如 果 用 户 希 望 被 关闭 的 端口 可 以 自动 恢复 ， 则 可 以 通过 在 全 局 执行 error-down 
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auto-recoverycausebpdu-protection interval interval-value 命令 使 端口 在 指定 时 间 后 状态 自 
动 恢复 为 Up， 即 配置 端口 自动 恢复 Up 所 需要 的 延 时 时 间 。 


9.5.2” 根 保护 (Root Protection ) 


由 于 维护 人 员 的 错误 配置 或 网 络 中 的 恶意 攻击 ， 网 络 中 根 桥 的 位 置 可 能 会 移动 到 其 
他 设备 上 。 导 致 的 原因 可 能 是 网 络 收 到 优先 级 更 高 的 BPDU， 从 而 引起 网 络 拓 扑 结构 的 
错误 变动 。 这 种 拓扑 的 变化 会 导致 原来 应 该 通过 高 速 链 路 的 流量 被 牵引 到 低速 链 路 上 ， 
造成 网 络 拥塞 。 

Root Protection 多 配置 在 接 入 层 交 换 机 的 端口 上 ， 防 止 用 户 随意 接 其 他 交换 机 进来 
而 改变 现 有 网 络 。 

启用 Root 保护 功能 的 指定 端口 ， 其 端口 角色 只 能 保持 为 指定 端口 。 一 旦 启用 Root 
保护 功能 的 指定 端口 收 到 优先 级 更 高 的 BPDU， 端 口 状态 将 进入 Discarding 状态 ， 不 再 
转发 报 文 。 在 经 过 一 段 时 间 (通常 为 两 倍 的 Forward Delay) 后 ， 如 果 端 口 一 直 没 有 再 收 
到 优先 级 较 高 的 BPDU， 端 口 会 自动 恢复 到 正常 的 Forwarding 状态 。 

结论 : 

启用 Root 防护 的 端口 阻止 端口 由 DP 角色 变 为 其 他 角色 。 同 样 ，Root 防护 仅 使 能 在 DP 
角色 的 端口 上 。Root 保护 功能 只 能 在 指定 端口 上 配置 生效 。 (防止 端口 成 为 接收 BPDU 的 
AP 或 RP 端口 ) 


根 防护 的 主要 用 途 是 防止 核心 网 络 ROOT 桥 位 置 变化 ,继而 影响 数据 包 的 流动 方向 。 
9.5.3 ” 环 路 保护 (Loop Protection ) 


9-82 中 ，SW2 和 SW3 交换 机 间 全 双 工 链 路 SW2 一 SW3 方向 中 断 ， 而 SW3 一 SW2 
方向 正常 ， 所 以 SW3 的 AP 端口 在 收 不 到 swIl 
BPDU 后 ， 成 为 DP 端口 ， 而 SW2 的 DP 
端口 还 存在 。SW1、SW2 和 SW3 间 的 3 根 
线 、6 个 端口 间 没 有 阻塞 的 端口 ， 都 转发 ， 
所 以 会 形成 图 上 的 顺 时 针 的 两 层 转发 环 路 。 

在 运行 生成 树 网 络 中 , 根 端口 和 其 他 阻 RP RP 
塞 端口 状态 依靠 不 断 接收 来 自 上 游 交 换 设 sw2 SW3 
备 的 BPDU 维持 。 了 

当 由 于 链 路 拥塞 或 者 单 向 链 路 故障 导 
致 这 些 端 口 收 不 到 来 自 上 游 交换 设备 的 有 
BPDU 时 ， 交 换 设备 会 重新 选择 根 端口 。 原 先 的 根 端 口 会 转变 为 指定 端口 ， 而 原先 的 阻 
塞 端口 会 迁移 到 转发 状态 ， 从 而 造成 交换 网 络 中 可 能 产生 环 路 。 

在 启动 了 环 路 保护 功能 后 ， 如 果 RP 端口 或 AP 端口 长 时 间 收 不 到 来 自 上 游 的 RST 
BPDU 时 ， 则 向 网 管 发 出 通知 信息 《如 果 是 根 端口 则 进入 Discarding 状态 )。 而 阻塞 端口 
则 会 一 直 保 持 在 阻塞 状态 ， 不 转发 报 文 ， 从 而 不 会 在 网 络 中 形成 环 路 。 直 到 RP 端口 或 
AP 端口 收 到 BPDU， 端 口 状态 才 恢 复 正 常 到 Forwarding 状态 。 
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说 明 : 
环 路 保护 功能 只 能 在 RP 端口 或 AP 端口 上 配置 生效 。 防 止 端口 成 为 DP 端口 ， 所 以 环 
路 防护 功能 不 能 配置 在 DP 端口 上 。 


因为 环 路 防护 的 端口 不 能 让 端口 成 为 DP 端口 ， 所 以 开启 环 路 防护 的 交换 机 不 能 
为 Transit 交换 机 。 环 路 保护 多 用 在 网 络 中 的 干线 端口 ， 以 避免 干线 端口 的 单 向 路 径 所 致 
的 环 路 。 图 9-83 中 ， 核 心 交 换 机 Cl 和 C2 间 干 线 多 ， 宛 余 能 力 强 ， 同 时 断 电 可 能 性 很 
低 ， 所 以 D1 或 D2 交换 机 可 以 在 G0/0/3、G0/0/4、G0/0/5 和 G0/0/6 端口 上 开启 环 路 防 
护 ， 以 避免 单 向 链 路 所 致 的 STP 环 路 。 

场景 : 





图 9-83 ”STP 环 路 防护 


例 ，D1 交换 机 的 G0/0/3 和 G0/0/4 端口 是 RP 和 AP 端口 ， 为 之 开启 环 路 保护 。 
<D1> system-view 

[D1] interface G0/0/3 

[D1-GigabitEthernet0/0/3]stp loop-protection 

[D1] interface GO/0/4 

[D1-GigabitEthernet0/0/4]stp loop-protection 
说 明 : 

缺 省 情况 下 ， 端 口 的 环 路 保护 功能 处 于 关闭 状态 。 


9.5.4 TC 防护 (TC Protection ) 


交换 设备 在 接收 到 TC BPDU 报 文 后 ， 会 执行 MAC 地 址 表 项 和 ARP 表 项 的 删除 操 
作 。 如 果 有 人 伪造 TC BPDU 报 文 恶 意 攻击 交换 设备 或 网 络 频繁 有 设备 端口 状态 变化 时 ， 
交换 设备 短 时 间 内 会 收 到 很 多 TC BPDU 报 文 ， 频 繁 的 删除 操作 会 给 设备 造成 很 大 的 负 
担 ，CPU 或 数据 泛 洪 增加 很 多 ， 致 网 络 不 稳定 。 

TC 防护 多 用 在 互联 设备 的 边界 端口 上 ， 可 避免 由 于 一 个 网 络 的 规划 /优化 不 善 ， 或 
边缘 网 络 没有 防御 措施 ， 而 致 核心 网 络 频 受 TC 泛 洪 的 影响 。 建 议 在 网 络 的 边界 或 核心 / 
边缘 网 络 的 设备 上 开启 TC 防护 ， 使 必要 的 TC 变化 在 控制 范围 内 。 

设备 默认 启用 防 拓扑 变化 攻击 功能 , 缺 省 的 单位 时 间 是 2s, 缺 省 的 处 理 次 数 是 1 次 。 

缺 省 的 单位 时 间 的 取 值 与 Hello Time 一 致 ， 调 整 单位 时 间 可 以 通过 命令 stp timer 
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hello 命令 来 配置 。stp tc-protection threshold 命令 可 用 来 配置 设备 在 收 到 拓扑 变化 报 文 后 , 单 
位 时 间 内 处 理 拓扑 变化 报 文 并 立即 刷新 转发 表 项 的 阔 值 。 

stp tc-protection interval 命令 可 用 来 配置 设备 处 理 最 大 数量 的 拓扑 变化 报 文 所 需 的 
时 间 。 

示例 : 配置 交换 机 在 10s 间隔 内 处 理 TC 报 文 的 数量 为 5。 

<HUAWEI> system-view | 

[HUAWEI] stp te-protection interval 10 

[HUAWEI] stp te-protection threshold 5 


9.5.5 ”BPDU 过 滤 (BPDU filter ) 


对 于 运行 生成 树 协议 的 园区 网 络 ， 边 缘 端口 不 再 参与 生成 树 计算 ， 但 端口 仍然 会 发 
送 BPDU 报 文 ， 这 可 能 导致 BPDU 报 文 发 送 到 其 他 网 络 ， 引 起 其 他 网 络 产生 震荡 。 
BPDU-filter 特性 可 使 端口 不 收 不 发 ， 过 滤 BPDU 报 文 。 

实现 方式 : 

1. 在 该 端口 上 配置 命令 stp bpdu-filter enable; 

2. 如 果 当 前 设备 上 需要 配置 较 多 BPDU filter 端口 ， 可 在 全 局 执 
行 命令 stp bpdu-filter default, 将 当前 所 有 端口 配置 成 BPDU filter 端口 。 
并 在 接口 下 使 用 命令 stp bpdu-filter disable 去 掉 相 应 端口 的 BPDU filter 
功能 。 


说 明 : sw 
BPDU filter 不 建议 在 网 络 中 过 多 使 用 ， 它 会 抑制 端口 产生 BFDU， 国 
9-84 场景 无 法 解决 。 端口 1 和 2 是 边缘 端口 ， 如 果 启 用 BPDU 过 滤 ， 端 “om 
口 不 发 BPDU。 彼此 会 收 不 到 BPDU， 端 口 会 一 直 处 于 转发 状态 ,交换机 
环 路 出 现 。 
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9.6 PPP 


9.6.1 PPP 简介 


PPP (Point to Point Protocol， 点 到 点 协议 ) 是 一 种 点 到 点 链 路 上 的 传输 协议 ， 工 作 
在 数据 链 路 层 ， 这 种 链 路 提供 全 双 工 操作 ， 并 按照 顺序 传递 数据 包 。PPP 的 优势 在 于 能 
够 提供 用 户 认 证 ， 易 于 扩充 ， 并 且 支 持 同 /异步 通信 ， 因 而 获得 广泛 应 用 。PPP 和 其 他 技 
术 结 合 ， 可 以 提供 多 种 业务 ， 包 括 PPPoE、PPPoA、PPPoEoA、PPPoFR 和 PPPoISDN。 
PPP 还 可 以 运用 于 专线 网 络 ， 实 现 企业 总 部 与 分 支 之 间 通 过 DDN 网 络 进行 对 接 。 

PPP 为 在 点 对 点 连接 上 传输 多 协议 数据 包 提 供 了 一 个 标准 方法 ， 最 初 的 设计 也 是 为 
两 个 对 等 节点 之 间 的 了 P 流量 传输 提供 一 种 封装 协议 。 在 TCP-IP 协议 集中 ， 它 是 一 种 用 
来 同步 调制 连接 的 数据 链 路 层 协议 ， 替 代 了 原来 非 标准 的 第 二 层 协议 ， 即 SLIP。 除 了 了 
以 外 ，PPP 还 可 以 携带 其 他 协议 ， 包 括 DECnet 和 Novell 的 Internet 网 包 交 换 (IPX)。 
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9.6.1.1 PPP 的 组 成 部 分 

PPP 定义 了 一 整套 协议 ， 具 体 包括 : 

1. 链 路 控制 协议 族 LCP (Link Control Protocol)， 主 要 用 来 建立 、 拆 除 和 监控 PPP 
数据 链 路 ; 

2. 扩展 协议 族 CHAP (Challenge-Handshake Authentication Protocol ) 和 PAP 
(Password Authentication Protocol)， 主 要 用 于 网 络 安全 方面 的 认证 ; 

3. 网 络 层 控制 协议 族 NCP (Network Control Protocol)， 主 要 用 来 协商 在 该 数据 链 
路 上 所 传输 的 数据 包 的 格式 与 类 型 。 

9.6.1.2 PPP 的 功能 

PPP 具备 以 下 几 种 功能 : 

1. 支持 多 种 网 络 层 协议 ， 比 如 TCP/IP、NetBEUI、NWLINK 等 ; 

2. 具备 错误 检测 及 纠 错 功能 ， 支 持 数据 压缩 ; 

3. 支持 身份 验证 (PAP、CHAP); 

4. 支持 动态 分 配 IP 地 址 ; 

5. 可 以 用 在 多 种 物理 类 型 介质 上 ， 包 插 串 口 线 、 电 话 线 等 ， 也 用 于 Internet 接 入 。 

9.6.1.3 PPP 各 阶段 描述 

Dead: 死亡 阶段 ， 这 个 阶段 表示 物理 层 无 连接 , 但 是 如 果 链 路 一 开始 就 会 处 于 这 个 
阶段 。 当 一 个 外 部 事件 (例如 载波 侦 听 或 网 络 管理 员 设 定 ) 指出 物理 层 已 经 准备 就 绪 时 ， 
PPP 将 进入 链 路 建立 阶段 。 在 这 个 阶段 ，LCP 将 处 于 初始 状态 ， 向 链 路 建立 阶段 的 转换 
将 给 LCP 一 个 UP 事件 信和 号。 

Establish: 建立 阶段 ， 一 旦 物理 层 有 连接 就 立刻 进入 到 该 阶段 ， 并 且 通 过 交换 配置 
请 求 消息 (Configure-Request) 来 建立 连接 。 在 配置 请 求 消息 中 包含 了 需要 协商 的 参数 
( 见 表 9-6 所 示 )， 如 果 对 方 同意 此 参数 ， 那 么 会 回应 配置 确认 (Configure-Ack) 来 完成 
交换 。 如 果 对 方 不 同意 那么 将 会 回应 不 同意 (Configure-NAK ) 或 者 拒绝 (Configure-Reject) 
消息 不 接受 。 本 端 将 会 再 次 发 送 配置 请 求 消息 ， 使 用 新 的 参数 重新 协商 。 如 果 协 商 成 
功 那么 最 终 会 进入 到 LCP Open 状态 , 并 且 开 始 进 入 认证 阶段 ; 如 果 失 败 将 进入 到 Dead 


阶段 。 
表 9-6 配置 请 求 消息 需要 协商 的 参数 

0 作用 
MRU 最 大 接收 单元 用 来 定义 最 大 能 够 接收 的 数据 包 大 小 
Authentication-Protocol 认证 协议 用 来 定义 认证 的 方式 ， 有 PAP 和 CHAP 两 种 
Quality-Protocol 质量 协议 用 来 定义 是 否 使 用 链 路 质量 监控 
Magic-Number 魔术 字 用 来 检测 环 路 和 不 正常 的 连接 错误 
Protocol-Field-Compression 协议 压缩 用 来 定义 是 否 启用 Protocol 字 段 压缩 ,将 16bit 压缩 成 6bit 
Address-and-Control-Field-Compression a i 
(ACFC): 地 址 和 控制 字段 压缩 用 来 定义 是 全 开 于 蜀 地 小 和 守山 守 民 

名 尝 : 


如 果 对 方 返回 Configure-Nak 消息 ， 一 般 是 由 于 参数 能 够 识别 ， 但 是 不 能 接受 ， 如 果 对 
方 返回 Configure-Reject 消息 , 一 般 是 由 于 该 参数 根本 无 法 识别 , 也 就 是 对 方 不 支持 该 功能 。 
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Authenticate: 认证 阶段 是 可 选 阶段 ， 默 认 情 况 下 认证 不 是 强制 的 执行 ， 在 允许 网 
络 层 协议 交互 报 文 之 前 ， 链 路 的 一 端 可 能 需要 男 外 一 端 去 认证 它 ， 只 有 认证 通过 了 才能 
够 交互 网 络 层 的 报 文 。 如 果 希 望 peer 根据 某 一 特定 的 认证 协议 来 认证 ， 那么 它 必须 在 链 
路 建立 阶段 要 求 使 用 那个 认证 协议 , 可 以 使 用 PAP 和 CHAP 两 种 认证 协议 。 在 认证 完成 
之 前 ， 禁 止 从 认证 阶段 迁移 到 网 络 层 协 议 阶段 ， 如 果 认 证 失败 ， 应 该 立刻 迁移 链 路 终止 
阶段 。 在 这 一 阶段 里 ， 只 有 链 路 控制 协议 、 认 证 协议 和 链 路 质量 监视 协议 的 报 文 是 被 允 
许 的 ， 在 该 阶段 里 接收 到 的 其 他 报 文 必须 被 丢弃 掉 。 认 证 允许 多 次 的 尝试 认证 ， 但 如 果 
尝试 仍然 不 成 功 时 才 进 入 链 路 终止 阶段 。 在 尝试 过 程 中 ， 如 果 一 端 拒 绝 了 另外 一 端的 认 
证 ， 拒 绝 的 一 端 就 要 负责 开始 链 路 终止 阶段 。 

Network: 网 络 层 协议 阶段 ， 一 旦 PPP 完成 了 前 面 的 阶段 ， 每 一 个 网 络 层 协 议 〈 例 
如 IP、IPX 或 AppleTalk) 必须 被 适当 的 网 络 控制 协议 C(NCP) 分 别 设 定 ， 每 个 NCP 可 
以 随时 被 打开 和 关闭 。 当 一 个 NCP 处 于 Opened 状态 时 ，PPP 将 携带 相应 的 网 络 层 协议 
报 文 。 当 相应 的 NCP 不 处 于 Opened 状态 时 ， 任 何 接收 到 的 被 支持 的 网 络 层 协议 报 文 都 

Terminate: 链 路 终止 阶段 ，PPP 可 以 在 任意 时 间 终 止 链 路 。 引 起 链 路 终止 的 原因 很 
多 ， 例 如 载波 丢失 、 认 证 失败 、 链 路 质量 失败 、 空 闲 周期 定时 器 期 满 或 者 管理 员 关闭 链 
路 。LCP 使 用 交换 终止 《Terminate) 报 文 的 方法 来 终止 链 路 。 交 换 Terminate 报 文 之 后 ， 
应 该 通知 物理 层 断 开 ， 以 便 强 制 链 路 终止 。 尤 其 当 认 证 失败 时 ， 通 过 发 送 终止 请 求 消息 
(Terminate-Request)， 对 方 用 终止 确认 (Terminate-Ack) 来 响应 ， 然 后 端口 连接 ， 接 着 
将 会 进入 到 Dead 阶段 。 


9.6.1.4 PPP 的 工作 流程 
UP 










PPP 运行 流程 图 如 图 9-85 所 示 。 Dead Establish Authenticate 
PPP 运行 过 程 描 述 如 下 。 让 | 
1. 通信 双方 开始 建立 PPP 链 路 时 ， 
先进 入 到 Establish 阶段 。 
2. 在 Establish 阶段 ，PPP 链 路 进行 
LCP 协商 。 协 商 内 容 包 括 工作 方式 是 SP 
( Single-link PPP) 还 是 MP (Multilink 图 9-85 PPP 运行 流程 图 
PPP)、 最 大 接收 单元 MRU 和 认证 方式 等 选项 。LCP 协商 成 功 后 进入 Opened 状态 ， 表 
示 底 层 链 路 已 经 建立 。 


3. 如 果 配 置 了 认证 ， 将 进入 Authenticate 阶段 ， 开 始 CHAP 或 PAP 认证 。 如 果 没 
有 配置 认证 ， 则 直接 进入 Network 阶段 。 

4. 对 于 Authenticate 阶段 ， 如 果 认 证 失败 ， 进 入 Terminate 阶段 ， 拆 除 链 路 ，LCP 
状态 转 为 Down。 如 果 认 证 成 功 ， 进 入 Network 阶段 ， 此 时 LCP 状态 仍 为 Opened。 

5. 在 Network 阶段 ，PPP 链 路 进行 NCP 协商 。 通 过 NCP 协商 来 选择 和 配置 一 个 网 
络 层 协议 并 进行 网 络 层 参 数 协 商 。 只 有 相应 的 网 络 层 协议 协商 成 功 后 ， 该 网 络 层 协 议 才 
可 以 通过 这 条 PPP 链 路 发 送 报 文 。NCP 协商 支持 IPCP (IP Control Protocol)、MPLSCP 
(MPLS Control Protocol) 等 协商 。IPCP 协商 内 容 主 要 包括 双方 的 了 P 地 址 。 

6. NCP 协商 成 功 后 ，PPP 链 路 将 一 直 保 持 通信 。PPP 运行 过 程 中 ， 可 以 随时 中 断 
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连接 ， 物 理 链 路 断 开 、 认 证 失败 、 超 时 定时 器 时 间 到 、 管 理 员 通 过 配置 关闭 连接 等 动作 
都 可 能 导致 链 路 进入 Terminate 阶段 。 

7. 在 Terminate 阶段 ， 如 果 所 有 的 资源 都 被 释放 ， 通 信 双 方 将 回 到 Dead 阶段 ， 直 
到 通信 双方 重新 建立 PPP 连接 ， 开 始 新 的 PPP 链 路 建立 。 

9.6.1.5 LCP 是 如 何 检测 环 路 的 

PPP 可 以 利用 魔术 字 来 检测 链 路 的 环 路 。 每 个 Configure-Request 报 文 都 会 产生 一 个 
魔术 字 ， 如 果 链 路 另 一 端 收 到 一 个 Configure-Request 报 文 之 后 ， 其 包含 的 魔术 字 需 要 和 
本 地 产生 的 魔术 字 做 比较 ， 如 果 不 同 ， 表 示 链 路 无 环 路 ， 则 使 用 Configure-Ack 报 文 确 
认 《〈 其 他 参数 也 协商 成 功 )， 表 示 魔 术 字 协商 成 功 。 在 后 续 发 送 的 报 文中 ， 如 果 报 文 含有 
魔术 字 字 段 ， 则 该 字段 设置 为 协商 成 功 的 魔术 字 ，LCP 不 再 产生 新 的 魔术 字 。 

如 果 收 到 的 Configure-Request 报 文 和 自身 产生 的 魔术 字 相 同 ， 则 发 送 一 个 
Configure-Nak 报 文 ， 并 且 携 带 一 个 新 的 魔术 字 。 然 后 ， 不 管 新 收 到 的 Configure-Nak 报 
文中 是 否 携带 相同 的 魔术 字 ，LCP 都 发 送 一 个 新 的 Configure-Request 报 文 ， 携 带 一 个 新 
的 魔术 字 。 如 果 链 路 有 环 路 ， 则 这 个 过 程 会 不 停 地 持续 下 去 ， 如 果 链 路 没有 环 路 ， 则 报 
文 交 互 会 很 快 恢复 正常 。 


9.6.2 PPP 认证 


9.6.2.1 PAP 认证 

PAP (Password Authentication Protocol) 密码 认证 协议 ， 主 要 通过 使 用 2 次 握手 提供 
一 种 对 等 结 点 的 建立 认证 的 简单 方法 ， 密 码 在 传递 的 过 程 中 采用 明文 的 方式 ， 认 证 过 程 
仅 在 链 路 初始 阶段 进行 。 当 链 路 建立 阶段 结束 后 ， 用 户 名 和 密码 将 由 被 认证 方 重复 地 发 
送 给 认证 方 ， 直 到 认证 通过 或 者 终止 连接 。 

PAP 认证 过 程 ( 如 图 9-86 所 示 ): 

1. 被 认证 方 发 送 认 证 请 求 (Authenticate-Request) 消息 给 认证 方 ， 消 息 当中 包含 了 
用 户 名 和 密码 ; 被 认证 方 认证 方 

2. 认证 方 收 到 认证 请 求 消息 后 ， 检 查 发 送 过 ”者 = 
来 的 用 户 名 和 密码 是 否 与 本 地 数据 库 一 致 。 如 果 一 
致 ， 则 认证 通过 ， 发 送 Authenticate-Ack 消息 给 被 
认证 方 ; 如 果 不 一 致 ， 则 认证 失败 ， 发 送 
Anuthenticate-Nak 消息 给 被 认证 方 。 

9.6.2.2 CHAP 认证 用 户 名 和 密码 完全 正确 ， 认 证 通过 

CHAP (Challenge Handshake Authentication 





Authenticate-Ack 


一 


Protocol) 挑战 握手 认证 协议 ，CHAP 通过 三 次 握 Authenticate-Nak 一 一 一 


了 
5 
Sd 
一 


手机 制 来 建立 认证 , 因为 CHAP 在 链 路 上 不 会 发 送 gs 
密码 ， 而 是 发 送 经 过 MD5 计算 过 的 hash 值 ， 因 此 
CHAP 比 PAP 具有 更 高 的 安全 性 。 图 9-86 PAP 认证 过 程 图 

CHAP 认证 过 程 ( 如 图 9-87 所 示 ) 如 下 。 

1. 认证 方 首 先 发 送 挑战 〈Challenge) 报 文 给 被 认证 方 ， 挑 战报 文中 包含 有 ID、 随 
机 数 Random、 认 证 方 的 用 户 名 Name。 
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LCP 建立 完成 ， 协 商 为 CHAP 认证 
Hostname: R1 Hostname: R2 


Password: huawei Password: huawei 
CHAP Code: (1) ID: (1) 
Challenge Name:(R1) Random:**** 
> 






ET 5 | [eanaom | Las 
Response Name: (R2) Value:(****) 


< 一 一 一 一 一 一 一 一 一 一 


CHAP 
Success/failure “| Code: (3) ID:(1) We/ 
一 -一 一 一 一 一 一 一 


图 9-87 CHAP 认证 过 程 图 


说 明 : 
ID 表示 认证 的 识别 符 ， 主 要 是 用 来 区 分 认证 ， 双 向 认证 时 各 自 的 ID 也 不 同 。 随 机 数 
是 用 于 MD5 的 hash 运算 。 


2. 被 认证 方 收 到 挑战 报 文 后 ， 将 根据 报 文中 的 用 户 名 查找 本 地 对 应 的 密码 ， 然 后 
再 将 ID、 随 机 数 、 密 码 一 起 进行 哈 希 运 算 ， 得 出 hash-1。 然 后 再 将 hash-1 放 在 响应 
(Response) 报 文 中 ， 连 同 ID、 被 认证 方 的 用 户 名 一 起 发 送 给 认证 方 。 

3. 认证 方 收 到 响应 报 文 后 ， 根 据 报 文中 的 用 户 名 查找 本 地 对 应 的 密码 ， 接 着 将 之 
前 发 送 给 被 认证 方 的 ID、 随 机 数 连 同 本 地 的 密码 一 起 进行 哈 希 运 算 ， 得 出 hash-2。 此 时 
将 比较 hash-1 与 hash-2， 如 果 一 致 说 明 认 证 通过 ， 向 被 认证 方 发 送 Success， 如 果 不 一 致 
说 明 认证 不 通过 ， 向 被 认证 方 发 送 Failure 报 文 。 

9.6.2.3 CHAP 认证 的 优势 

CHAP 相 比 PAP 体现 出 的 优势 在 于 安全 性 ，CHAP 认证 过 程 中 是 不 传递 密码 的 ， 只 
是 传递 hash 值 。 这 样 做 的 好 处 在 于 ， 即 使 有 中 间 人 通过 抓 取得 到 数据 报 文 ， 也 无 法 得 知 
其 中 的 密码 。 而 且 利用 随机 数 ， 每 次 认证 计算 出 的 hash 值 也 是 不 一 样 的 ， 使 中 间 人 得 到 
hash 值 也 无 法 重复 地 使 用 。 

9.6.2.4 人 多 局 下 配置 接口 下 的 配置 区 别 

配置 PPP 的 用 户 名 和 密码 可 以 选择 在 全 局 下 和 接口 下 进行 , 但 是 在 全 局 和 接口 下 配 
置 用 户 名 和 密码 会 有 所 差别 ， 见 表 9-7 所 示 。 


表 9-7 PPP 验证 配置 












认证 方 : 仅 使 用 全 局 密码 ; 被 认证 方 : 先 检查 全 
局 再 检查 接口 , 如 全 局 有 配置 将 首先 使 用 全 局 密 
码 ， 如 果 全 局 没有 配置 密码 则 使 用 接口 的 配置 
认证 方 : 不 使 用 ;被 认证 方 ， 用 来 进行 hash 
计算 的 参数 


认证 方 : 用 来 查找 全 局 用 户 名 对 应 的 密码 
进行 hash 计算 
认证 方 : 发 送 挑战 报 文 时 携带 的 用 户 名 ; 
被 认证 方 : 发 送 响应 报 文 携带 的 用 户 名 
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9.6.3 MP 简介 


MP (MultiLink PPP) 多 链 路 PPP， 这 项 技术 是 将 多 个 PPP 链 路 捆绑 在 一 起 ， 可 以 
实现 增加 链 路 的 带宽 和 增强 元 余 性 。 由 于 串 行 链 路 可 提供 带宽 较 低 ， 单 条 链 路 可 能 无 法 
满足 用 户 的 需求 ， 这 时 可 以 利用 MP 技术 ， 将 多 个 PPP 链 路 进行 捆绑 ， 形 成 MP 链 路 。 
如 图 9-88 所 示 ， 两 台 路 由 器 之 间 使 用 三 条 PPP 链 路 ， 假 设 单条 链 路 带宽 为 1.544Mbit/s， 
通过 创建 MP 虚 模 板 邮 辑 接口 ， 把 三 个 接口 进行 捆绑 ， 将 带宽 增加 到 4.632Mbit/s， 是 以 
前 的 到 三 倍 。 另 外 还 能 提供 链 路 的 元 余 性 ， 其 中 某 一 条 链 路 出 现 故障 ， 其 他 的 链 路 可 以 


仍然 可 以 使 用 。 


RouterA RouterB 


图 9-88 MP 链 路 捆绑 


MP 允许 将 全 等 网 络 层 的 报 文 进行 碎片 处 理 ， 将 碎片 的 报 文 通过 多 个 链 路 传输 ， 同 
时 抵达 同一 个 目的 地 ， 以 求 汇总 所 有 链 路 的 带宽 。 

9.6.3.1 MP 方式 捆绑 过 程 

(1) 检测 对 端 是 否 工 作 在 MP 方式 ， 首 先 和 对 端 进行 LCP 协商 ， 协商 过 程 中 ， 除 了 
协商 一 般 的 LCP 参数 外 ， 还 验证 对 端 接口 是 否 也 工作 在 MP 方式 下 。 如 果 对 端 不 工作 在 
MP 方式 下 ， 则 在 LCP 协商 成 功 后 在 进行 NCP 协商 步骤 ， 不 进行 MP 捆绑 。 

(2) 将 接口 捆绑 至 MP 虚 模 板 接口 ， 有 两 种 方法 可 以 实现 MP 捆绑 ， 即 采用 虚拟 接 
口 模板 实现 MP， 采 用 MP-Group 来 实现 MP。 

(3) 进行 NCP 协商 等 操作 ，PPP 接口 被 捆绑 至 虚 模 板 接口 之 后 ， 将 根据 虚 模 板 接口 
的 各 项 NCP 参数 ， 如 IP 地 址 等 进行 NCP 协商 ， 物 理 接口 配置 的 NCP 参数 不 起 作用 。 
NCP 协商 通过 后 ， 即 可 建立 MP 链 路 ， 用 更 大 的 带宽 传输 数据 。 

9.6.3.2 MP 实现 方式 介绍 

MP 实现 方式 具体 分 为 以 下 几 种 类 别 。 

1. 采用 虚拟 接口 模板 实现 MP 

。 ”将 多 条 PPP 链 路 直接 绑 定 到 VT 上 实现 MP。 

特点 : 通过 多 条 PPP 链 路 和 一 个 虚拟 接口 模板 直接 绑 定 实现 MP， 这 种 方法 配置 简 
单 ， 但 是 安全 性 不 高 。 

。 按照 PPP 链 路 用 户 名 查找 VT 实现 MP。 

特点 : 根据 验证 通过 的 对 端 用 户 名 查找 对 应 的 虚拟 接口 模板 ， 相 同 用 户 名 绑 定 到 一 
个 虚拟 接口 模板 实现 MP。 这 种 方法 实现 灵活 ， 配 置 复杂 ， 一 般 用 于 灵活 性 要 求 较 高 的 
场合 。 

2. 采用 MP-Group 实现 MP 

。 将 多 条 PPP 链 路 加 入 MP-Group 实现 MP。 

特点 : MP-Group 接口 是 MP 的 专用 接口 ， 不 能 支持 其 他 应 用 ， 将 多 条 PPP 链 路 加 
入 MP-Group 实现 MP。 这 种 方法 快速 高 效 ， 配 置 简单 ， 容 易 理解 ， 实 际 应 用 中 多 采用 
这 种 方法 进行 PPP 绑 定 。 
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9.6.3.3 MP 的 分 片 
较 大 报 文 在 通过 链 路 时 ， 传 输 的 时 间 也 较 长 ， 占 用 链 路 的 时 间 也 长 。 对 于 优先 级 高 
的 报 文 〈 例 如 : 语音 报 文 )， 可 能 造成 延 时 ， 影 响 用 户 体 验 。 对 于 此 种 情况 ， 可 以 采用 以 
下 方法 进行 解决 。 
。 ”配置 报 文 分 片 的 最 小 报 文 长 度 ， 将 超大 报 文 进行 分 片 传输 。 
。 使 能 链 路 分 片 与 交叉 LFI 功能 ， 将 超大 报 文 进行 分 片 ， 并 将 超大 报 文 的 分 片 和 
不 需要 分 片 的 高 优先 级 报 文 一 起 发 送 ， 从 而 减少 在 速度 较 慢 的 链 路 上 的 延迟 和 
抖动 ， 保 证 了 优先 级 高 的 报 文 优先 传输 。 


说 明 : 
默认 情况 下 ， 报 文 分 片 最 小 的 报 文 长 度 为 500Byte，MP 最 大 链 路 捆绑 数 为 16，MP 捆 
绑 条 件 根据 对 端 用 户 名 和 终端 标识 符 进行 MP 捆绑 ， 即 捆绑 模式 为 both。 


9.7 PPPoE 简介 


PPPoE (Point to Point Protocol over Ethernet) 基于 以 太 网 上 的 点 到 点 协议 ， 顾 名 思 
义 是 指 在 以 太 网 上 面 承载 PPP 协议 ， 如 图 9-89 所 示 。PPPoE 协议 提供 了 在 以 太 网 网 络 
中 多 台 主 机 连接 到 远 端 的 宽带 接 入 服务 器 上 的 一 种 标准 。 人 们 想 通过 相同 的 接 入 设备 来 
连接 到 远程 站 点 土 的 多 个 主机 ， 同 时 接 入 设备 能 够 提供 与 拨号 上 网 类 似 的 访问 控制 和 计 
费 功能 。 在 众多 的 接 入 技术 中 ， 把 多 个 主机 连接 到 接 入 设备 的 最 好 的 方法 就 是 以 太 网 ， 
但 是 以 太 网 不 能 提供 链 路 的 认证 等 功能 ， 而 PPP 协议 可 以 提供 良好 的 访问 控制 和 计 费 功 
能 ， 于 是 产生 了 在 以 太 网 上 传输 PPP 的 技术 ， 即 PPPoE 协议 。PPPoE 利用 以 太 网 ， 将 大 
量 主机 组 成 网 络 通过 一 个 远 端 接 入 设备 连 入 因特网 ， 并 运用 PPP 协议 对 接 入 的 每 个 主机 
进行 控制 ， 具 有 适用 范围 广 、 安 全 性 高 、 计 费 方便 的 特点 。 

以 往 modem 接 入 技术 面临 一 些 相 互 矛盾 的 目标 ， 既 要 通过 同一 个 用 户 前 置 接 入 设 
备 连接 远程 的 多 个 用 户主 机 ， 又 要 提供 类 似 拨号 一 样 的 接 入 控制 、 计 费 等 功能 ， 而 且 要 
尽 可 能 地 减少 用 户 的 配置 操作 。PPPoE 将 以 太 网 和 点 对 点 协议 的 可 扩展 性 及 管理 控制 功 
能 结合 在 一 起 ， 服 务 提供 商 ISP 可 利用 可 靠 和 熟悉 的 技术 来 加 速 部 署 高 速 互联 网 业务 。 
它 使 服务 提供 商 在 通过 数字 用 户 线 、 电 线 调 制 解 调 器 或 无 线 连接 等 方式 ， 提 供 支 持 多 用 
户 的 宽带 接 入 服务 时 更 加 简便 易 行 ， 同 时 也 简化 了 操作 配置 。 






GE1/0/0 eS 


PPPoE Server 


图 9-89 PPPoE 
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9.7.1 PPPoE 工作 原理 


PPPoE 协议 的 工作 流程 包含 发 现 和 会 话 两 个 阶段 ， 发 现 阶 段 是 无 状态 的 ， 目 的 是 获 
得 PPPoE 终结 端 ( 在 局 端的 ADSL 设备 上 ) 的 以 太 网 MAC 地 址 , 并 建立 一 个 唯一 的 PPPoE 
SESSION-ID。 发 现 阶段 结束 后 ， 就 进入 标准 的 PPP 会 话 阶段 。 

当 一 个 主机 想 开始 一 个 PPPoE 会 话 时 ， 它 必须 首先 进行 发 现 阶 段 ， 以 识别 局 端的 以 
太 网 MAC 地 址 ， 并 建立 一 个 PPPoE SESSION-ID。 在 发 现 阶段 ， 基 于 网 络 的 拓扑 ， 主 机 
可 以 发 现 多 个 接 入 集中 器 ， 然 后 允许 用 户 选 择 一 个 。 当 发 现 阶段 成 功 完成 后 ， 主 机 和 选 
择 的 接 入 集中 器 都 有 了 它们 在 以 太 网 上 建立 PPP 连接 的 信息 。 直 到 PPP 会 话 建立 , 发 现 
阶段 一 直 保 持 无 状态 的 ClientyServer (客户 / 服 务 器 ) 模式 。 一 旦 PPP 会 话 建立 ， 主 机 和 
接 入 集中 器 都 必须 为 PPP 虚 接 口 分 配 资 源 。PPPoE 协议 会 话 的 发 现 和 会 话 两 个 阶段 具体 
进程 如 下 。 

Discovery 发 现 阶段 : 

在 发 现 阶 段 中 ， 用 户主 机 以 类 似 广 播 的 方式 寻找 所 连接 的 所 有 接 入 集中 器 (或 交换 
机 )， 并 获得 其 以 太 网 MAC 地 址 。 然 后 选择 需要 访问 的 接 入 集中 器 ， 并 确定 所 要 建立 的 
PPP 会 话 唯一 标识 号 码 。 发 现 阶段 有 4 个 步骤 , 当 此 阶段 完成 后 ,通信 的 两 端 都 知道 PPPoE 
SESSION-ID 和 对 端的 以 太 网 地 址 ， 它 们 一 起 唯一 定义 PPPoE 会 话 。 这 4 个 步骤 如 下 。 

1. 主机 广播 发 起 分 组 (PADI)， 分 组 的 目的 地 址 为 以 太 网 的 广播 地 址 0xFFFFFF 
FFFFFF, CODE (代码 ) 字段 值 为 0x09，SESSION-ID (会 话 ID ) 字段 值 为 0x0000。PADI 
分 组 必须 至 少 包含 一 个 服务 名 称 类 型 的 标签 (标签 类 型 字段 值 为 0x0101)， 向 接 入 集中 
器 提出 所 要 求 提供 的 服务 。 

2. 接 入 集中 器 收 到 在 服务 范围 内 的 PADI 分 组 ,发送 PPPoE 有 效 发 现 提供 包 (PADO) 
分 组 ,以 响应 请 求 。 其 中 , CODE 字段 值 为 0x07，SESSION-ID 字段 值 仍 为 0x0000。PADO 
分 组 必须 包含 一 个 接 入 集中 器 名 称 类 型 的 标签 (标签 类 型 字段 值 为 0x0102)， 以 及 一 个 
或 多 个 服务 名 称 类 型 标签 ， 表 明 可 向 主机 提供 的 服务 种 类 。 

3. 主机 在 可 能 收 到 的 多 个 PADO 分 组 中 选择 一 个 合适 的 PADO 分 组 ， 然 后 向 所 选 
择 的 接 入 集中 器 发 送 PPPoE 有 效 发 现 请 求 分 组 (PADR)。 其 中 ，CODE 字段 为 0x19， 
SESSION _ID 字段 值 仍 为 0x0000。PADR 分 组 必须 包含 一 个 服务 名 称 类 型 标签 ， 确 定向 
接 入 集线器 (或 交换 机 ) 请 求 的 服务 种 类 。 当 主机 在 指定 的 时 间 内 没有 接收 到 PADO 时 ， 
它 应 该 重新 发 送 它 的 PADI 分 组 ， 并 且 加 倍 等 待 时 间 ， 这 个 过 程 会 被 重复 期 望 的 次 数 。 

4. 接 入 集中 器 收 到 PADR 分 组 后 准备 开始 PPP 会 话 ， 它 发 送 一 个 PPPoE 有效 发 现 
会 话 确认 PADS 分 组 。 其 中 ，CODE 字段 值 为 0x65，SESSION-ID 字段 值 为 接 入 集中 器 
所 产生 的 一 个 唯一 的 PPPoE 会 话 标识 号 码 。PADS 分 组 也 必须 包含 一 个 接 入 集中 器 名 称 
类 型 的 标签 以 确认 向 主机 提供 的 服务 。 当 主机 收 到 PADS 分 组 确认 后 ， 双 方 就 进入 PPP 
会 话 阶段 。 

Session 会 话 阶段 : 

用 户主 机 与 接 入 集中 器 根据 在 发 现 阶 段 所 协商 的 PPP 会 话 连接 参数 进行 PPP 会 话 。 
一 旦 PPPOE 会 话 开 始 ，PPP 数据 就 可 以 以 任何 其 他 的 PPP 封装 形式 发 送 。 所 有 的 以 太 
网 帧 都 是 单 播 的 。PPPoE 会 话 的 SESSION-ID 一 定 不 能 改变 ， 并 且 必 须 是 发 现 阶段 分 
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配 的 值 。 
PPPoE 还 有 一 个 PADT 分 组 ， 它 可 以 在 会 话 建 立 后 的 任何 时 候 发 送 ， 来 终止 PPPoE 
会 话 ， 也 就 是 会 话 释放 。 它 可 以 由 主机 或 者 接 入 集中 器 发 送 。 当 对 方 接收 到 一 个 PADT 
分 组 , 就 不 再 允许 使 用 这 个 会 话 来 发 送 PPP 业务 。 PADT 分 组 不 需要 任何 标签 , 其 CODE 
字段 值 为 0xa7，SESSION-ID 字段 值 为 需要 终止 的 PPP 会 话 的 会 话 标 识 号 码 。 在 发 送 或 
接收 PADT 后 ， 即 使 正常 的 PPP 终止 分 组 也 不 必 发 送 。PPP 对 端 应 该 使 用 PPP 协议 自身 
来 终止 PPPOE 会话， 但 是 当 PPP 不 能 使 用 时 ， 可 以 使 用 PADT。 


9.7.2 ”PPPoE 验证 过 程 


1. 在 STA 和 AP 之 间 建 立 好 关联 之 后 ， 客 户 端 向 AC 设备 发 送 一 个 PADI 报 文 ， 开 
始 PPPOE 接 入 的 开始 。 

2. AC 向 客户 端 发 送 PADO 报 文 。 

3. 客户 端 根据 回应 ， 发 起 PADR 请 求 给 AC。 

4. AC 产生 一 个 Session ID， 通过 PADS 发 给 客户 端 。 

5. 客户 端 和 AC 之 间 进 行 PPP 的 LCP 协商 ， 建 立 链 路 层 通信 。 同 时 ， 协 商 使 用 PAP、 
CHAP 认证 方式 。 

6. AC 通过 Challenge 报 文 发 送 给 认证 客户 端 ， 提 供 一 个 128bit 的 Challenge。 

7. 客户 端 收 到 Challenge 报 文 后 ， 将 密码 和 Challenge 做 MD5 算法 后 的 Challenge- 
Password， 在 Response 回应 报 文中 发 送 给 AC 设备 。 

8. Ac 将 Challenge、Challenge-Password 和 用 户 名 一 起 送 到 RADIUS 用 户 认证 服务 
器 ， 由 RADIUS 用 户 认 证 服务 器 进行 认证 。 

9. RADIUS 用 户 认 证 服务 器 根据 用 户 信 息 判 断 用 户 是 否 合法 ， 然 后 回应 认证 成 功 / 
失败 报 文 到 AC。 如 果 成 功 ， 携 带 协商 参数 ， 以 及 用 户 的 相关 业务 属性 给 用 户 授权 。 如 
果 认 证 失败 ， 则 流程 到 此 结束 。 

10. AC 将 认证 结果 返回 给 客户 端 。 

11. 用 户 进行 NCP (如 IPCP) 协商 ， 通 过 AC 获取 到 规划 的 卫 地 址 等 参数 。 

12. 认证 如 果 成 功 ，AC 发 起 计 费 开始 请 求 给 RADIUS 用 户 认 证 服务 器 。 

13. RADIUS 用 户 认证 服务 器 回应 计 费 开始 请 求 报 文 。 用 户 上 线 完毕 ， 开 始 上 网 。 

假如 客户 端 要 通过 一 个 局 域 网 与 远程 的 PPPoE 服务 器 进行 身份 验证 ， 这 时 ， 它 们 会 
有 两 个 不 同 的 会 话 阶 段 ，Discovery 阶段 和 PPP 会 话 阶 段 。 当 一 个 客户 端 想 开 始 一 个 
PPPoE 会 话 时 ， 它 必须 首先 进行 发 现 阶段 ， 以 识别 对 端的 以 太 网 MAC 地 址 ， 并 建立 一 
个 PPPoE Session ID。 在 发 现 阶段 ， 基 于 网 络 的 拓扑 结构 ， 客 户 端 可 以 发 现 多 个 PPPoE 
服务 器 ， 然 后 从 中 选择 一 个 ， 不 过 通常 都 是 选择 反应 最 快 的 那 一 个 。 

Discovery 阶段 是 一 个 无 状态 的 阶段 , 该 阶段 主要 是 选择 接 入 服务 器 , 确定 所 要 建立 
的 PPP 会 话 标识 符 Session_ID， 同 时 获得 对 方 点 到 点 的 连接 信息 ; PPP 会 话 阶 段 执 行 标 
准 的 PPP 过 程 。 当 此 阶段 完成 , 通信 的 两 端 都 知道 PPPoE Session ID 和 对 端的 以 太 网 地 
址 ， 它 们 一 起 定义 了 一 个 唯一 的 PPPoE 会 话 。 这 些 步骤 包括 一 个 客户 端 广播 发 起 分 组 
(PADI)、 一 个 或 多 个 PPPoE 服务 器 发 送 响 应 分 组 (PADO)， 客 户 端 向 选中 的 服务 器 发 
送 请 求 分 组 (PADR)， 选 中 的 PPPoE 服务 器 发 送 一 个 确认 分 组 (PADS) 给 客户 端 。 当 
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客户 端 接收 到 确认 分 组 后 , 可 以 开始 进行 PPP 会 话 阶段 。 当 PPPoE 服务 器 发 送出 确认 分 
组 ， 它 可 以 开始 PPP 会 话 。PPPoE 工作 机 制 如 图 9-90 所 示 。 


RADIUS 用 户 
认证 服务 器 





8.Access-Request 


9.Access-Accept/Access-Reject 


如 果 失 败 ， 流 程 结束 : 
如 果 成 功 ， 继 续 协 商 ;…… 


12.Accounting-Request/Start 


计 费 开始 13.Accounting-Response/Start 


图 9-90 PPPoE 工作 机 制 


当 客 户 端 在 指定 的 时 间 内 没有 接收 到 PADO， 应 该 重新 发 送 它 的 PADI 分 组 ， 并 且 
加 倍 等 待 时 间 ， 这 个 过 程 会 被 重复 期 望 的 次 数 。 如 果 客 户 端正 等 待 接收 PADS， 应 该 使 
用 具有 客户 端 重新 发 送 PADR 的 相似 超时 机 制 。 在 重 试 指定 的 次 数 后 ， 主 机 应 该 重新 发 
送 PADI 分 组 。PPPoE 还 有 一 个 PADT 分 组 ， 它 可 以 在 会 话 建立 后 的 任何 时 候 发 送 ， 来 
终止 PPPOE 会话。 它 可 以 由 客户 端 或 者 PPPoE 服务 器 发 送 。 当 接收 到 一 个 PADT， 不 再 
允许 使 用 这 个 会 话 来 发 送 PPP 业务 。 在 发 送 或 接收 PADT 后 , 即 正常 的 PPP 不 能 使 用 时 ， 
可 以 使 用 PADT。 一旦 PPPoE 会 话 开 始 ，PPP 数据 就 可 以 以 任何 其 他 的 PPP 封装 形式 发 
送 。 所 有 的 以 太 网 帧 都 是 单 播 的 ， 身 份 验证 是 发 生 在 会 话 阶段 的 ，PPPoE 会 话 的 
Session_ID 一 定 不 能 改变 ， 并 且 必 须 是 发 现 阶 段 分 配 的 值 。 


9.7.3 “PPPoE 报 文 


PPPoE 报 文 是 直接 在 以 太 网 头 部 之 上 的 ， 在 以 太 头 部 的 类 型 字段 中 ， 用 0x8863 表 
示 PPPoE 发 现 阶段 数据 ， 用 0x8864 表示 PPP 会 话 阶段 数据 。 
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Ver Type Session_ID 
Length Payload 
Ver 版 本 号 : 4 位， 必须 为 0x01。 
Type 类 型 : 4 位 ， 必 须 为 0x01。 
Code 代码 : 8 位 ， 表 示 PPPoE 数据 包 类 型 ， 在 发 现 阶段 和 会 话 阶段 有 不 同 的 定义 。 


Code 值 数据 包 类 型 
0x09 PADI (PPPoOE Active Discovery Initiation ) 
0x07 PADO (PPPoE Active Discovery Offer) 
0x19 PADR (PPPoE Active Discovery Request) 
0x65 PADS (PPPoOE Active Discovery Session-confirmation) 
Oxa7 PADT (PPPoE Active Discovery Terminate) 


Session ID: 16 位 ， 用 来 定义 一 个 PPP 会 话 ， 在 发 现 过 程 中 定义 。 

Length 长 度 : 16 位 ， 表 示人 负载 长 度 ， 不 包括 以 太 网 报头 和 PPPoE 头 。 

9.7.3.1 PPPoE 主动 发 现 初始 包 

PPPoE 主动 发 现 初 始 包 (PPPoE Active Discovery Initiation，PADI) 由 客户 机 发 出 ， 
以 太 网 头 中 的 目的 地 址 是 以 太 广 播 地 址 FF:FF:FF:FF:FF:FF,PPPoE 头 中 的 Code 为 0x09， 
Session_ID 值 必须 为 0, 负载 部 分 必须 只 包含 一 个 Service-Name 类 型 的 TAG 表示 请 求 的 
服务 类 型 ,另外 可 以 包含 其 他 TAG, 整个 PPPoE 包 不 能 超过 1484Byte, 这 样 省 出 的 16Byte 
可 以 由 ADSL 中 继 设备 添加 中 继 TAG。 

9.7.3.2 PPPoE 主动 发 现 提议 包 

PPPoE 主动 发 现 提 议 包 (PPPoE Active Discovery Offer，PADO) 由 AC 发 出 ， 用 来 
回应 客户 机 的 PADI 包 。 以 太 头 中 的 目的 地 址 是 客户 机 的 MAC 地 址 ,PPPOE 头 中 的 CODE 
为 0x07，Session_ID 值 必须 为 0， 负 载 部 分 必须 包含 一 个 AC-Name 类 型 的 TAG， 用 来 
指示 本 AC 的 名 称 ， 一 个 在 PADI 包 中 指定 的 Service-Name 的 TAG。 另 外 可 以 包含 其 他 
Service-Name 的 TAG。 如果 AC 不 对 该 客户 机 提供 服务 ，AC 就 不 回应 PADO 包 。 

9.7.3.3 ”PPPoE 主动 发 现 请 求 包 

PPPoE 主动 发 现 请 求 包 (PPPoE Active Discovery Request，PADR ) 由 客户 机 发 出 ， 
因为 可 能 会 有 多 个 AC 对 客户 机 发 出 的 PADI 包 回应 了 PADO 包 , 客 户 机 从 回应 的 PADO 
包 中 选择 一 个 AC 发 送 PADR 包 。 以 太 头 中 的 目的 地 址 是 该 AC 的 MAC 地 址 ，PPPoE 
头 中 的 CODE 为 0x19，Session ID 值 必须 为 0， 负载 部 分 必须 只 包含 一 个 Service-Name 
类 型 的 TAG， 表示 请 求 的 服务 类 型 ， 另 外 可 以 包含 其 他 TAG。 

9.7.3.4 PPPoE 主动 发 现 会 话 确认 包 

PPPoE 主动 发 现 会 话 确 认 包 (PPPoE Active Discovery Session-confirmation，PADS ) 
由 AC 发 出 ， 收 到 客户 机 的 PADR 包 后 ，AC 将 产生 一 个 Session ID 值 来 标志 本 次 PPP 
会 话 , 以 PADR 包 方 式 发 送 给 客户 机 。 以 太 头 中 的 目的 地 址 是 客户 机 的 MAC 地 址 ,PPPoE 
头 中 的 CODE 为 0x65，Session_ID 值 必须 为 所 生成 的 那个 Session_ ID， 负载 部 分 必须 只 
包含 一 个 Service-Name 类 型 的 TAG， 表 示 该 服务 类 型 被 AC 接受 ， 另 外 可 以 包含 其 他 
TAG。 如 果 AC 不 接受 PADR 中 的 Service-Name，PADS 中 则 包含 一 个 Service-Name-Error 


705 Wim 


本 | HCIE 路 由 交 的 学 指南 | 

类 型 的 TAG， 这 时 Session ID 设置 为 0。 

9.7.3.5 PPPoE 主动 发 现 停止 包 

在 PPP 会 话 阶段 ，PPP 包 被 封装 在 PPPoE 以 太 帧 中 ， 以 太 包 目 的 地 址 都 是 单一 的 ， 
以 太 协 议 为 0x8864，PPPoE 头 的 CODE 必须 为 0。Session_ID 必须 一 直 为 发 现 阶 段 协商 
出 的 Sesion ID 值 ，PPPoE 的 负载 是 整个 PPP 包 ，PPP 包 前 是 两 字 节 的 PPP 协议 ID 值 。 

PPP 会 话 

在 PPP 会 话 阶段 ，PPP 包 被 封装 在 PPPoE 以 太 帧 中 ， 以 太 包 目 的 地 址 都 是 单一 的 ， 
以 太 协 议 为 0x8864，PPPoE 头 的 CODE 必须 为 0，Session ID 必须 一 直 为 发 现 阶段 协商 
出 的 Sesion ID 值 ，PPPoE 的 负载 是 整个 PPP 包 ，PPP 包 前 是 两 字 节 的 PPP 协议 ID 值 。 


9.8 思考 题 


.华为 的 VLAN 技术 中 ，MuxVLAN 和 SuperVLAN 的 区 别 在 哪里 ? 举例 说 明 。 
， 分析 QinQ 发 生 VLAN hopping (vlan 跳 迁 ) 的 原因 。 
.VLAN Mapping 应 用 于 什么 场合 ? 解决 了 什么 问题 ? 它 和 QinQ 有 什么 区 别 ? 
. VLAN 间 的 通信 有 哪些 实现 方法 ? 各 自 的 优 缺 点 如 何 ? 
.华为 STP 和 RSTP 在 拓扑 计算 时 的 主要 区 别 是 什么 ? 
6. RSTP 在 什么 场景 下 发 送 Proposal 报 文 ? RP 和 DP 在 P/A 的 作用 ? BP 端口 是 怎 
么 工作 的 ? 
7. 请 指出 图 9-91 中 SW4 的 根 端口 是 哪 一 个 ? 如果 SW2 和 SW3 之 间 的 链 路 成 本 由 
2 变 为 20， 请 问 结果 有 什么 变化 ? 〈 图 中 已 经 标 出 链 路 成 本 ) 


惟信 UP 一 






SW1 Region 1 








GO/0/2 


GO/0/1 | S 












=X 


S 







Region 2 


~ 一 
GO/0/4 S GO/0/5 


SW4 


Region 3 
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8.， 华为 交换 机 中 ，RP 端口 和 DP 端口 快速 进入 状态 有 什么 不 同 ? 
9. 为 什么 在 RSTP 中 一 定 要 使 用 P2P 链 路 ? 是 否 可 以 把 共享 网 段 当 P2P 链 路 看 待 ? 
10. PPP 认证 过 程 ， 并 说 明 在 PPPoE 技术 中 ，PPP 为 什么 要 结合 以 太 网 使 用 ? 
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在 当前 的 企业 网 络 中 ， 语 音 、 视 频 及 数据 业务 对 现 有 的 IP 网 络 提出 了 更 高 的 要 求 ， 
为 了 保障 这 些 关 键 业务 在 网 络 过 载 或 拥塞 时 质量 不 受 影响 ， 需 要 在 网 络 中 部 署 QoS， 以 
提供 更 好 的 服务 能 力 。 

本 章 系统 地 归纳 了 华为 设备 上 所 用 到 的 QoS 机 制 ， 包 含 分 类 、 打 标记 、 监 管 、 限 束 
整形 及 队列 管理 等 常用 的 QoS 机 制 ， 并 分 析 了 其 工作 原理 。 


本 章 包含 以 下 内 容 : 


© 熟悉 QoS 部 署 工具 

© 了 解 QoS 分 类 及 标记 工具 

© 熟悉 QoS 队列 技术 及 拥塞 避免 
© 熟悉 QoS 监管 、 整 形 及 限 速 
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10.1 QoS 定义 及 模型 


网 络 按 尽 力 转发 的 方式 发 送 数据 ， 这 意味 着 所 有 的 数据 享有 同等 优先 级 和 同样 的 资 
源 分 配 情况 。 而 一 旦 拥塞 发 生 了 ， 上 所 有 的 数据 也 享有 同等 的 被 丢弃 的 可 能 性 。 传 统 的 数 
据 业 务 对 网 络 丢 包 或 延迟 有 较 强 的 “接受 能 力 ” 和 “忍耐 力 ” 而 当前 的 企业 网 络 或 数据 
中 心 网 络 对 延迟 、 丢 包 ， 乃 至 于 对 带宽 都 有 更 高 的 要 求 。 

当今 的 企业 网 络 或 数据 中 心 网 络 承载 着 多 种 业务 类 型 的 数据 ， 如 语音 、 视 频 及 存储 
数据 等 。 要 保证 不 同业 务 在 资源 有 限 的 情况 下 ， 依 然 可 以 保证 各 自 的 业务 质量 ， 需 要 在 
现 有 的 网 络 中 部 署 QoS， 来 尽量 保证 每 种 业务 的 质量 要 求 。 


10.1.1 Qos 模型 


在 现 有 的 网 络 中 部 署 QoS， 共 有 三 种 模型 。 

。 第 一 种 模型 ， Best-effort( 尽 力 转 发 模型 )， 没 有 QoS 定义 的 网 络 ， 各 种 业务 报 
文公 平 争 用 有 限 的 资源 ， 无 法 保证 各 类 业务 的 服务 质量 。 

。 第 二 种 模型 : IntServ (集成 模型 )， 是 一 种 基于 “ 流 ” 的 QoS 解决 方案 ， 使 用 
资源 预 留 协议 RSVP 沿 数据 转发 路 径 为 业务 流 申请 并 预 留 资源 ， 保 证 业务 流 在 
进入 网 络 的 时 候 有 足够 的 资源 可 用 。 该 模型 的 缺点 是 需要 路 径 上 每 一 跳 设 备 都 
要 支持 RSVP， 如 果 中 间 一 跳 设 备 不 支持 RSVP， 则 无 法 做 到 端 到 端的 服务 质量 ， 
这 就 使 得 RSVP 信 令 协议 驱动 下 的 QoS 难于 大 规模 部 署 。 目 前 ， 使 用 RSVP 的 
集成 模型 在 语音 或 视频 场景 下 应 用 较 多 。 

。 第 三 种 模型 : DiffServ (差分 服务 模型 )， 该 模型 在 网 络 的 边界 上 为 各 类 报 文 上 
色 ( 即 打 标记 ), 在 网 络 的 核心 根据 颜色 ( 即 标记 ) 在 每 一 跳 设备 上 分 配 不 同 的 
资源 。 这 种 模型 是 基于 类 的 ， 需 要 对 每 个 类 单独 定义 策略 ， 分 配 资源 。 该 模型 
部 署 需 要 工程 师 或 管理 员 在 网 络 的 每 一 跳 设备 上 配置 QoS， 所 以 对 部 署 工程 师 
的 要 求 较 高 ， 本 章 重点 介绍 此 种 模型 。 


10.1.2 工作 特点 


三 种 模型 中 ， 差 分 服务 模型 在 实际 部 署 中 使 用 得 非常 多 ， 企 业 或 运营 商都 在 使 用 ， 
它 的 工作 特点 如 下 : 

差分 服务 通过 在 网 络 边 界定 义 策略 来 对 进入 网 络 的 业务 分 类 ， 并 做 相应 的 标记 ， 特 
定 场景 下 , 还 要 对 进来 的 报 文 做 过 滤 或 限 速 ( 如 DDoS 攻击 报 文 )， 网 络 核心 则 根据 分 类 
的 结果 定义 相应 的 QoS。 该 模型 的 优点 是 : 

。 扩展 性 好 ， 不 需要 像 RSVP 一 样 在 中 间 设 备 上 维护 资源 状态 或 流 的 信息 ; 

。 性 能 优越 ; 

。 互 操 作 性 强 ; 

e ”灵活 性 高 。 

缺点 : 
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。 无 法 像 集成 模型 一 样 可 做 到 End-to-End 资源 保留 
。 ”对 部 署 工程 师 要 求 较 高 ， 要 求 工程 师 能 熟练 使 用 QoS。 


10.1.3 ”QoS 工具 种 类 


本 文 介绍 的 QoS 都 是 基于 DiffServ 服务 模型 的 ， 基 于 DiffServ 模型 的 QoS 业务 主 
要 分 为 以 下 几 大 类 。 

e 报 文 分 类 和 标记 

要 实现 差分 服务 ， 需 要 首先 将 数据 包 分 为 不 同 的 类 别 或 者 设置 上 不 同 的 优先 级 。 报 
文 分 类 即 把 数据 包 分 为 不 同 的 类 别 ， 可 以 通过 MQC 配置 流 分 类 来 实现 ; 报 文 标记 是 为 
数据 包 设 置 不 同 的 优先 级 ， 可 以 通过 优先 级 映射 和 重 标记 优先 级 实现 。 

。 流量 监管 、 流 量 整 形 和 接口 限 速 

流量 监管 和 流量 整形 可 以 将 业务 流量 限制 在 特定 的 带宽 内 ， 当 业务 流量 超过 额定 带 
宽 时 ， 超 过 的 流量 将 被 丢弃 或 缓存 。 其 中 ， 将 超过 的 流量 丢弃 的 技术 称 为 流量 监管 ， 将 
超过 的 流量 缓存 的 技术 称 为 流量 整形 。 

。 拥塞 管理 和 拥塞 避免 

拥塞 管理 在 网 络 发 生 拥 塞 时 ， 将 报 文 放 入 队列 中 缓存 ， 并 采取 某 种 调度 算法 安排 报 
文 的 转发 次 序 。 而 拥塞 避免 可 以 监督 网 络 资源 的 使 用 情况 ， 当 发 现 拥塞 有 加 剧 的 趋势 时 
采取 主动 丢弃 报 文 的 策略 ， 通 过 调整 流量 来 解除 网 络 的 过 载 。 

其 中 ， 报 文 分 类 和 标记 是 实现 差分 服务 的 前 提 和 基础 。 

流量 监管 、 流 量 整 形 、 接 口 限 速 、 拥 塞 管 理 和 拥塞 避免 从 不 同方 面 对 网 络 流量 及 其 
分 配 的 资源 实施 控制 ， 是 提供 差分 服务 的 具体 体现 。 

有 和 本 鬼 大 下 网 后 作 条 上 的 冰 淹 机 序 类 图 HL 所 吉 























图 10-1 华为 QoS 技术 处 理 流 程 
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图 10-1 列 出 了 各 种 QoS 工具 可 以 应 用 的 位 置 ( 不 同 平 台 略 有 不 同 ), 包括 报 文 分 类 、 
标记 、 拥 塞 管理 及 拥塞 避免 ， 限 速 、 整 形 及 监管 等 工具 。 

襄 明 : 

ee 华为 QoS 工具 可 以 有 多 种 配置 实现 , 如 同样 的 队列 机 制 , 就 有 Queue-profile 和 CBQ 
两 种 队列 实现 。 

ee 多 种 QoS 工具 可 以 同时 配置 在 一 个 接口 上 ， 如 接口 既 配 置 队 列 ， 又 配置 整形 等 。 

e。 当前 华为 的 多 种 QoS 工具 中 ， 都 是 基于 接口 特定 方向 配置 的 ， 有 些 工具 只 能 应 用 
在 接口 的 出 方向 有 些 只 能 应 用 在 接口 的 入 方向 上 。 图 10-1 中 只 有 监管 既 可 以 应 
用 到 接口 的 入 方向 又 可 以 应 用 到 接口 的 出 方向 上 ( 限 速 则 在 华为 交换 机 和 路 由 
器 上 有 所 不 同 ， 交 换 机 上 的 限 速 既 可 以 应 用 在 入 方向 又 可 以 应 用 在 出 方向 ， 具 
体内 容 请 参考 后 面 章节 ) 。 


10.2 ”QoS 部 署 工具 


华为 的 设备 可 以 支持 多 种 QoS 机 制 ， 在 配置 实现 上 述 QoS 机 制 时 ， 华 为 设备 可 以 
使 用 传统 QoS 命令 来 实现 ， 也 可 以 使 用 目前 推荐 的 MQC (Modular QoS Command-Line 
Interface 模块 化 QoS 命令 接口 ) 配置 实现 。 


10.2.1 传统 的 QoS 工具 


传统 的 QoS 配置 命令 包括 如 下 几 种 ， 它 们 的 特点 是 配置 QoS 不 使 用 MQC， 直 接 把 
相关 命令 应 用 在 接口 上 。 以 下 列举 了 信任 、 队 列 、 限 速 、 整 形 及 监管 。 


<Huawei> System-View 

[Huawei] interface ethernet 2/0/0 
[Huawei-Ethemet2/0/0] trust dscp 

# 基 于 端口 信任 DSCP 

[Huawei] interface ethernet 2/0/0 
[Huawei-Ethernet2/0/0] qos queue-profile hello-world 
# 调 用 Queue-profile 队列 管理 

[Huaweil interface ethernet 2/0/0 
[Huawei-Ethernet2/0/0] qos lr pct 50 cbs 375000 

# 对 接口 外 出 流量 做 限 速 

[Huawei] interface ethernet 2/0/0 
[Huawei-Ethernet2/0/0] qos gts cir 2000 cbs 375000 
# 对 接口 外 出 流量 整形 管理 

[Huawei] interface ethernet 21/0/0 
[Huawei-Ethernet2/0/0] qos car inbound cir 2000 

# 基 于 接口 做 监管 ， 也 可 使 用 outbound 关键 词 ， 对 出 方向 流量 做 监管 


10.2.2 MQC 


除 上 述 QoS 实现 外 ， 随 着 网 络 中 各 种 业务 的 不 断 丰富 ， 在 网 络 规划 时 ， 要 实现 对 不 
同业 务 流 量 〈 如 不 同业 务 或 不 同 用 户 ) 的 更 细 化 的 多 种 服务 需求 ， 这 样 使 用 传统 的 配置 
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命令 将 会 是 一 件 非 常 复杂 烦琐 的 事情 。 

华为 统一 并 简化 了 QoS 的 配置 实现 ， 使 用 MQC (Modular QoS Command-Line 
Interface) 配置 接口 可 对 进入 到 现 有 网 络 的 各 种 业务 实现 各 种 QoS 机 制 ， 更 加 灵活 及 
简便 。 

MQC 将 有 共同 特征 的 报 文 划分 为 一 类 ， 并 为 其 定义 QoS 动作 来 提供 差分 服务 。 

MQC 配置 需要 三 个 要 素 : 流 分 类 (traffic classifier)、 流 行为 (traffic behavior) 和 流 
策略 (traffic policy)。MQC 结构 图 如 图 10-2 所 示 。 














流行 为 bl 
( 重 标记 优先 级 、 重 
定向 、 报 文 过 滤 等 ) 





定向 、 报 文 过 滤 等 ) 





流行 为 bn 
( 重 标记 优先 级 、 重 
定向 、 报 文 过 滤 等 ) 


图 10-2 MQC 结构 图 


MQC 的 配置 过 程 : 

第 1 步 ， 配 置 流 分 类 ， 按 照 一 定 规则 对 报 文 进行 分 类 ， 是 提供 差分 服务 的 基础 ; 
第 2 步 ， 配 置 流行 为 ， 为 符合 流 分 类 规则 的 报 文 指定 流量 控制 或 资源 分 配 动作 ; 
第 3 步 ， 配 置 流 策略 ， 将 指定 的 流 分 类 和 指定 的 流行 为 绑 定 ， 形 成 完整 的 策略 ; 
第 4 步 ， 应 用 流 策略 ， 将 流 策略 应 用 到 接口 或 子 接口 。 


10.2.3” 流 分 类 ( traffic classifer ) 


分 类 是 MQC 实现 的 第 一 步 ， 进 到 企业 的 数据 流量 都 要 在 网 络 的 边界 上 通过 定义 的 
规则 对 流量 进行 分 类 ， 分 好 的 每 个 类 再 给 予 不 同 的 QoS 动作 。 
创建 一 个 流 分 类 使 用 如 下 命令 : 
traffic classifier classifier-name [ operator { and | or } ] 
论 match 匹配 规则 

其 中 ，operator and 或 operator or 是 可 选 操作 符 ， 默 认 是 operator or。 

。 and 表示 流 分 类 中 各 规则 之 间 关 系 为 “逻辑 与 ? 如 果 流 分 类 下 定义 了 多 个 匹配 
规则 ， 则 必须 同时 满足 所 有 规则 的 流量 才 属 于 该 类 。 

。 or 表示 流 分 类 各 规则 之 间 是 “逻辑 或 ”的 关系 ,如 果 流 分 类 下 定义 了 多 个 规则 ， 
数据 报 文 至 少 要 匹配 其 中 一 个 规则 ， 该 流量 才 属 于 该 类 。 

。 未 显示 定义 operator 时 ， 流 分 类 中 各 匹配 规则 之 间 的 关系 为 “逻辑 或 ”。 
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例 : 定义 一 个 流 分 类 cl, 使 其 可 以 匹配 经 接口 G0/0/0 收 到 的 数据 ， 且 同时 满足 ACL 
3001 所 匹配 到 的 流量 。 
traffic classifier cl operate and 
if-match acl 3001 


if-match input-interface GO/0/0 
# 同 时 满足 两 个 规则 的 流量 才 归 属于 cl 类 
例 : 定义 一 个 流 分 类 c2， 使 其 可 以 匹配 ACL 3001 所 定义 的 流量 或 接口 G0/0/0 流入 
的 报 文 。 
traffic classifier c2 operate or 
if-match acl 3001 
让 match input-interface G0/0/0 
# 至 少 满足 二 者 之 一 的 流量 才 属 于 c2 类 


10.2.4 流行 为 (traffic behavior ) 


流行 为 是 用 来 为 相应 的 流 分 类 定义 的 动作 ， 这 些 动 作 会 应 用 到 该 类 的 数据 报 文 上 ， 
影响 该 类 报 文 在 设备 内 部 的 资源 分 配 ， 定 义 的 动作 可 以 是 过 滤 、 限 速 、 打 标记 、 分 配 接 
口 带宽 等 。 

创建 一 个 流行 为 使 用 命令 : 

traffic behavior behavior-name 

QoS 动作 

例 : 定义 一 个 流行 为 ， 使 其 做 到 当 接 口 拥塞 时 流量 可 以 得 到 接口 带宽 的 20%， 并 同 
时 对 转发 出 去 的 报 文 设 置 QoS 标记 AF31， 流 行为 的 名 字 为 bl。 

traffic behavior bl 

remark dscp AF31 #AF31 是 DSCP 26 所 对 应 的 PHB 

queue af bandwidth pct20 # 接 口 带宽 的 20% 

# 同 一 个 traffic behavior 下 定义 的 动作 可 以 有 多 个 ， 彼 此 有 相应 的 工作 逻辑 

# 此 处 是 既 打 标记 ， 又 保证 带宽 


说 明 : 
实际 情况 下 ， 在 traffic behavior 下 定义 流行 为 中 的 动作 ， 只 要 各 动作 不 冲突 ， 都 可 以 在 
同一 流行 为 中 配置 ， 流 行为 下 定义 的 动作 可 以 有 多 个 ， 可 对 应 不 同 的 QoS 工具 ， 如 打 标 


10.2.5 ” 流 策略 (traffic policy ) 


流 策略 用 来 将 流 分 类 和 流行 为 绑 定 ， 一 个 流 策略 可 以 绑 定 多 个 流 分 类 和 流行 为 ， 定 
义 好 的 流 策 略 可 应 用 到 接口 的 入 方向 和 /或 出 方向 上 上， 对流 经 接口 的 入 方向 和 /或 出 方向 
的 流量 提供 QoS 服务 。 
例 : 定义 一 个 流 策略 ， 要 求 该 流 策略 可 以 做 到 cl 的 流量 使 用 行为 bl。 同 理 ，c2 使 
用 行为 b2，c3 使 用 行为 bj， 并 保证 所 有 未 匹配 上 述 分 类 的 流量 可 以 使 用 流行 为 b4。 
traffic policy pl 和 
classifier cl behavior bl 
classifier c2 behavior b2 
classifier c3 behavior b3 


classifier default-class behavior b4 
# 策 略 P1 中 用 户 定义 的 类 cl、c2、c3 匹配 相应 的 流量 ， 其 他 流量 匹配 default-class 类 ， 并 执行 相应 类 所 对 应 的 动作 
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traffic policy 是 一 个 类 和 行为 的 列表 ， 每 个 类 都 有 对 应 的 匹配 规则 ， 策 略 列表 中 的 类 是 
有 先后 顺序 的 ， 报 文 会 先 尝 试 匹 配 处 在 上 面 的 类 ， 不 匹配 的 流量 会 最 终 和 最 底下 的 
default-class 类 匹配 ， 它 默认 能 匹配 所 有 流量 。 


配置 时 要 把 严格 的 分 类 放 在 策略 列表 的 上 面 ， 宽 泛 的 分 类 放 在 下 面 ， 类 的 排列 顺序 
是 配置 的 先后 顺序 。 建 议 不 要 在 策略 列表 中 定义 过 多 的 类 ， 否 则 会 增加 配置 的 复杂 性 。 


10.2.6 ”应 用 流 策略 


定义 的 流 策略 一 定 要 和 接口 关联 ， 每 个 接口 的 每 个 方向 只 能 关联 一 个 traffic-policy， 
一 旦 应 用 到 相应 接口 后 ， 经 过 该 接口 的 流量 会 和 策略 列表 尝试 匹配 ， 匹 配 到 相应 类 的 流 
量 可 以 执行 对 应 的 动作 。 

接口 类 型 可 以 是 物理 或 子 接口 ， 甚 至 tunnel 接口 等 。 

调用 策略 命令 : 

traffic-policy policy-name { inbound | outbound } 

inbound 在 接口 的 入 方向 应 用 流 策略 ， 对 进入 的 流量 起 作用 。outbound 在 出 方向 应 
用 策略 ， 对 出 去 的 流量 起 作用 。 

例 : 要 求 将 前 面 定义 好 的 流 策略 应 用 到 接口 eth2/0/0 的 入 方向 上 ， 使 其 对 进 到 系统 
的 流量 起 作用 。 

<Huawei> system-view 

[Huawei] interface ethernet 2/0/0 

[Huawei-Ethernet2/0/0] traffic-policy pl inbound 

# 

说 明 : 

1) 如 果 把 策略 应 用 到 入 方向 ， 则 对 入 方向 的 流量 起 作用 ， 接 口 进 来 的 流量 会 依次 匹 
配 到 不 同 的 类 ， 如 果 没 有 匹配 c1 ~ c3， 流 量 会 匹配 到 default-class (如 果 default-class 没有 显 
示 的 配置 ， 它 依然 隐 含 存在 ， 处 在 最 末 的 位 置 匹配 所 有 的 流量 ) 

2) 流 策略 一 旦 应 用 后 ， 不 允许 直接 删除 该 流 策略 及 其 包含 的 流 分 类 或 流行 为 ， 如 果 
要 删除 流 策略 ， 则 必须 先 在 接口 下 执行 undo traffic-policy 命令 取消 接口 和 该 策略 的 关联 ， 

3) MQC 的 设计 用 意 是 使 用 一 套 结 构 化 的 QoS 配置 命令 完成 所 有 QoS 机 制 的 配置 ， 所 
以 会 在 一 个 p1 策略 中 定义 多 种 QoS 机 制 ， 但 某 些 机 制 只 能 工作 在 接口 的 入 方向 或 接口 的 
出 方向 。 做 策略 时 ， 应 用 的 方向 要 和 QoS 机 制 所 支持 的 方向 一 致 才能 配置 成 功 ， 否 则 出 
现 类 似 如 下 提示 。 

# 定 义 一 个 保留 带宽 的 队列 ， 并 试图 应 用 到 接口 的 入 方向 

[Huaweiltraffic behavior b2 

[Huawei-behavior-b2] queue af bandwidth pct 20 

[Huawei-behavior-b2] quit 

# 如 果 某 个 traffic behavior 下 含有 上 面 的 队列 配置 

[Huawei-GigabitEthernet0/0/0]traffic-policy pl inbound 


Error: CBQ is not supported in inbound, on interface GigabitEthernet0/0/0. 
# 包 含 队列 机 制 的 traffic policy 一 定 要 应 用 在 outbound 方向 上 


综合 示例 : 
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# 第 一 步 ， 在 RouterA 上 创建 流 分 类 cl 一 c3， 对 来 自 企 业 的 不 同业 务 流 按照 其 VLAN ID 进行 分 类 

[RouterA] traffic classifier cl 

[RouterA-classifier-cl] if-match vlan-id 10 

[RouterA-classifiercl] quit 

[RouterA] traffic classifier c2 

[RouterA-classifier-c2] if-match vlan-id 20 

[RouterA-classifier-c2] quit 

[RouterA] traffic classifier c3 

[RouterA-classifier-c3] if-match vlan-id 30 

[RouterA-classifier-c3] quit 

# 第 二 步 ， 配 置 流量 监管 行为 

# 在 RouterA 上 创建 流行 为 bl 一 b3， 对 来 自 企业 的 不 同业 务 流 进 行 流量 监管 

[RouterA] traffic behavior bl 

[RouterA-behavior-b1] car cir 256 cbs 48128 pbs 80128 

[RouterA-behavior-b1] statistic enable 

[RouterA-behavior-b1] quit 

[RouterA] traffic behavior b2 

[RouterA-behavior-b2] car cir 4000 cbs 752000 pbs 1252000 

[RouterA-behavior-b2] statistic enable 

[RouterA-behavior-b2] quit 

[RouterA] traffic behavior b3 

[RouterA-behavior-b3] car cir 2000 cbs 376000 pbs 626000 

[RouterA-behavior-b3] statistic enable 

[RouterA-behavior-b3] quit 

# 第 三 步 ， 配 置 流 量 监管 策略 并 应 用 到 接口 上 | 

# 在 RouterA 上 创建 流 策略 pl， 将 流 分 类 和 对 应 的 流行 为 进行 绑 定 并 将 流 策略 应 用 到 接口 Eth2/0/0 入 方向 上 ， 对 来 
自 企业 的 不 同业 务 报 文 进行 基于 流 的 流量 监管 

[RouterA] traffic policy p1 

[RouterA-trafficpolicy-pl1] classifier cl behavior bl 

[RouterA-trafficpolicy-p1] classifier c2 behavior b2 

[RouterA-trafficpolicy-p1] classifier c3 behavior b3 

[RouterA-trafficpolicy-p1] quit 


# 第 四 步 ， 应 用 流 策略 在 入 或 出 的 方向 上 
[RouterA] interface ethernet 2/0/0 
[RouterA-Ethernet2/0/0] traffic-policy pl inbound 
大 


10.3 分 类 


大 多 数 的 QoS 工具 都 能 对 进来 的 业务 流 分 类 , 分 类 的 目的 是 对 进来 的 不 同 流量 实施 
不 同 级 别 的 QoS 服务 。 在 当前 的 网 络 中 , 分 类 和 打 标 记 在 网 络 的 边缘 发 挥 了 重要 的 作用 ， 
而 在 网 络 的 核心 根据 标记 来 分 类 并 实施 相应 的 QoS 动作 , 这 是 实现 差分 服务 的 前 提 和 基 
础 。 分 类 的 工具 有 多 种 ， 可 在 接口 下 应 用 ACL 或 由 MQC 使 用 traffic classifier 定义 具备 
复杂 匹配 能 力 的 流 分 类 。 


10.3.1 分 类 工具 1 接口 使 用 ACL 
这 种 分 类 方法 多 和 传统 的 QOS 工具 , 如 Remark( 打 标记 )、CAR (监管 ) 一 起 使 用 ， 
它 最 大 的 特征 是 把 全 局 定义 的 用 于 匹配 数据 报 文 的 ACL 直接 在 接口 下 调用 , 其 匹配 进入 
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或 离开 接口 的 流量 ， 对 ACL 所 允许 的 报 文 做 限 速 或 过 滤 等 处 理 。 
此 种 分 类 方式 的 特点 是 实现 简单 、 匹 配 能 力 有 限 ， 需 要 和 其 他 传统 QoS 配置 工具 一 
起 使 用 。 
例 : 接口 对 ACL 2000 及 2001 流量 做 监管 ， 其 他 流量 则 直接 转发 。 
acl number 2000 - 
rule 0 permit source 192.168.1.0 0.0.0.255 
#acl2000， 人 允许 源 地 址 为 192.168.1.0 网 段 的 报 文通 过 
# 
acl number 2001 
rule 0 permit source 192.168.2.0 0.0.0.255 
#acl2001， 人 允许 源 地 址 为 192.168.2.0 网 段 的 报 文通 过 
# 
interface GigabitEthernet3/0/0 
ip address 1.2.0.2 255.255.255.0 
qos car outbound acl 2000 cir 512 cbs 32000 pbs 432000 green pass yellow pass red discard 
# 在 接口 下 直接 调用 qos car 监管 命令 ， 其 对 在 接口 出 方向 对 符合 ACL 2000 规则 的 报 文 做 流量 监管 ， 指 定 承 诺 信息 速 
率 为 512kbit/s 
qos car outbound acl 2001 cir 128 cbs 8000 pbs 72000 green pass yellow pass red discard 
# 同 样 ， 接 口 出 方向 对 符合 ACL 2001 规则 的 报 文 做 流量 监管 ， 指 定 承 诺 信息 速率 为 128kbit/s 


说 明 : 
ACL 可 以 是 基本 ACL 或 高 级 ACL,， 如 果 在 接口 下 没有 定义 任何 ACL, 则 对 经 过 接口 的 报 
文 都 起 作用 。 


例 : 限制 接口 Eth2/0/0 入 方向 数据 的 承诺 信息 速率 为 2000kbit/s。 
<Huawei> system-view 

[Huawei] interface ethernet 2/0/0 

[Huawei-Ethernet2/0/0] qos car inbound cir 2000 

# 没 有 关联 ACL 


10.3.2 ”分 类 工具 2 使 用 MQC 流 分 类 


MQC 是 灵活 性 很 强 的 配置 工具 ， 其 可 使 用 traffic classifier 定义 复杂 的 匹配 规则 ， 可 
以 匹配 报 文 的 LI1L2/L3/L4 甚至 L7。 匹 配 规则 通过 识别 报 文 头 中 的 一 层 、 二 层 、 三 层 及 
高 层 相应 字 域 的 内 容 ， 识 别 报 文 是 分 类 阶段 的 职责 ， 命 令 形 式 如 下 : 

Traffic classifier cl 


Ifmatch 匹配 条 件 
于 match 匹配 条 件 


可 定义 的 匹配 规则 如 下 ， 具 体 可 参考 表 10-1 或 华为 手册 。 

。 一 层 是 指 匹 配 物理 层 的 接口 或 子 口 等 。 

。 二 是 指 匹配 MAC、DLCI、VLAN ID、802.1p、MPLS EXP、ATM CLP 和 Frame 
Relay 丢弃 位 DE)。 

。 三 层 可 匹配 的 参数 包括 IPP、DSCP 及 源 /目的 IP 地 址 等 。 

e 四 层 可 以 匹配 TCP 或 UDP 端口 。 

。 更 高 层 ， 如 第 七 层 ， 可 以 匹配 出 现在 应 用 层 协议 头 中 的 URL， 或 负载 中 的 指定 
格式 的 代码 等 。 

。 执行 命令 traffic classifier classifier-name [ operator { and | or } ]， 创 建 一 个 流 分 
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类 。 其 中 ，and 表示 流 分 类 中 各 规则 之 间 关 系 为 “逻辑 与 ” 而 or 表示 流 分 类 
各 规则 之 间 是 “逻辑 或 ” 即 报 文 只 需 匹 配 流 分 类 中 的 一 个 或 多 个 规则 即 属于 该 
类 。 缺 省 情况 下 ， 流 分 类 中 各 规则 之 间 的 关系 为 “逻辑 或 ”。 
。 ”Default-class 永远 处 于 列表 最 后 面 , 即使 未 显示 定义 , 也 默认 存在 。 Default-class 
是 默认 存在 的 匹配 所 有 流量 的 类 ， 显 示 定 义 的 目的 仅 是 为 了 修改 其 对 应 的 流行 为 
规则 见 表 10-1 所 示 。 





表 10-1 匹配 规则 
T 匹配 规则 中 | | nT 吧 : TT oy mol po a ,命令 Wy Mes 
外 层 VLAN ID if-match vlan-id start-vlan-id [ to end-vlan-id ] 
QinQ 报 文 内 层 VLAN ID if-match cvlan-id start-vlan-id [ to end-vlan-id ] 
VLAN 报 文 802.1p 优先 级 if-match 8021p 8021p-value &<1-8> 
ee 报 文 内 层 VLAN 的 802.1p 优 if-match cvlan-8021p 8021p-value &<1-8> 
MPLS 报 文 EXP 优先 级 (AR1200 系 | ， 
列 、AR2200 系列 、AR3200 系列 ) if-match mpls-exp exp-value &<1-8> 
if-match destination-mac mac-address [ mac-address-mask mac- 
目的 MAC 地 址 address-mask ] 
源 MAC 地 址 i source-mac mac-address [ mac-address-mask mac-address- 
FR 报 文中 的 DLCI 信息 if-match dlci start-dlci-number [ to end-dlci-number ] 
FR 报 文中 的 DE 标志 人 if-match fr-de 
以 太 网 帧 头 中 协议 类 型 字段 if-match 12-protocol { arp | ip | mpls | rarp | protocol-value } 
所 有 报 文 if-match any 
IP 报 文 的 DSCP 优先 级 if-match [ ipv6 ] dscp dscp-value &<1-8> 
if-match ip-precedence ip-precedence-value &<1-8> 
说 明 : 
乡 扩 二 - : 
于 所 广 的 加 入 所 坟 不 能 在 一 个 逻辑 关系 为 “与 ”的 流 分 类 中 同时 配置 让 match dscp 
和 if-match ip-precedence 
报 文 三 层 协议 类 型 if-match protocol { ip |ipv6 } 
ATM 报 文中 的 PVC 信息 if-match pvc vpi-number/vci-number 
RTP 端口 号 if-match rtp start-port start-port-number end-port end-port-number 
TCP 报 文 SYN Flag if-match tcp syn-flag { ack | fin | psh | rst | syn | urg }* 
入 接口 if-match inbound-interface interface-type interface-number 


if-match acl { acl-number | acl-name } 
ACL 规则 说 明 : 
使 用 ACL 作为 流 分 类 规则 ， 必 须 先 配置 相应 的 ACL 规则 
if-match ipv6 acl { acl-number | acl-name } 
ACL6 规则 说 明 : 
使 用 ACL 作为 流 分 类 规则 ， 必 须 先 配置 相应 的 ACL 规则 


if-match app-protocol protocol-name [ time-range time-name ] 


说 明 : 

定义 基于 应 用 协议 的 匹配 规则 前 ， 必 须 使 能 SAC 功能 并 加 载 特 
当 流 分 类 中 包含 论 match app-protocol 时 ， 流 分 类 各 规则 之 间 的 
关系 必须 是 or 
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if-match protocol-group protocol-group [ time-range time-name | 
说 明 : 

定义 基于 应 用 协议 的 匹配 规则 前 ， 必 须 使 能 SAC 功能 并 加 载 特 
征 库 ; 

可 以 在 SAC 协议 组 视图 中 通过 app-protocol protocol-name 将 指 
定 应 用 协议 加 入 SAC 协议 组 ; 

当 流 分 类 中 包含 fmatch app-protocol 时 ， 流 分 类 各 规则 之 间 的 
关系 必须 是 or 


SAC 协议 组 


10.3.3 ”MQC 可 以 使 用 SAC 做 深度 识别 


除了 前 面 定义 的 根据 报 文 头 中 的 固定 字 域 的 内 容 来 匹配 业务 流 ， 华 为 设备 允许 使 用 
SAC (Smart Application Control) 业务 感知 技术 ， 对 报 文 中 第 4 一 第 7 层 的 内 容 和 一 些 动 
态 协 议 〈 如 HTTP、RTP) 进行 检测 和 识别 ， 通 过 对 报 文 进行 深度 的 识别 和 分 类 ， 可 用 
于 发 现 更 细 化 的 业务 。 如 使 用 SAC 可 以 识别 出 G711 编码 的 语音 业务 或 H264 的 视频 业 
务 等 。 

SAC 能 检查 数据 包 中 符合 无 状态 协议 ， 靠 和 SAC 特征 库 进 行 比较 ， 识 别 能 力 高 低 
依赖 于 系统 软件 包 中 自 带 的 SAC 特征 库 文 件 ， 如 果 需 要 可 下 载 新 的 特征 库 文件 ， 以 增强 
系统 的 识别 能 力 。SAC 深度 识别 仅 对 报 文 流 的 第 一 个 包 做 深度 分 析 ， 流 的 后 续 报 文 根 据 
首次 分 析 的 结果 使 用 fib 做 快速 转发 。 成 熟 的 做 法 都 是 在 网 络 的 边缘 、 靠 近 数 据 报 文 进 
入 网 络 的 源 侧 对 报 文 做 识别 和 标记 ， 如 果 标 记 和 信任 设置 正确 ， 则 中 间 设 备 不 能 或 不 需 
重复 地 做 深度 识别 ， 仅 需 根据 规划 好 的 QoS 策略 去 执行 动作 。 

例 : 企业 管理 员 限 制 员 工 使 用 qq， 在 边缘 路 由 器 上 ， 关 流量 是 qq 则 拒绝 ， 否 则 放行 。 

思路 : 使 用 SAC 对 应 用 协议 进行 识别 、 分 类 ， 并 提供 差分 服务 。 

<Huawei> system-view 

[Huawei] sac protocol-group groupl 

[Huawei-sac-protocol-group-group1] app-protocol qq 

# 定义 流 分 类 classl 的 匹配 规则 为 匹配 SAC 协议 组 groupl 

[Huawei] traffic classifier classl 

| [Huawei-classifier-class1] if-match protocol-group groupl 
# 查看 SAC 协议 列 组 groupl 的 配置 信息 
<Huawei> display sac protocol-group groupl 
SAC Protocol-group 
Name: groupl State: Unbound 





Index Protocol Name 

1 fetion 

2 qq 

Total: 2 
[Huaweiltraffic behavior bl 
[Huawei-behavior-bl]deny 
[Huawei-behavior-bl]quit 
# 定 义 流行 为 ， 拒 绝 匹 配 的 报 文 
[Huaweiltraffic policy pl 
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[Huawei-trafficpolicy-pl1]classifier cl behavior bl 
[Huawei-trafficpolicy-pl]quit 
[Huaweilint s1/0/0 


[Huawei-Seriall/0/0]traffic-policy pl outbound 
# 流 策略 pl 应 用 在 边界 路 由 器 连 运营 商 网 络 的 方向 上 


重复 使 用 app-protocol 命令 可 以 为 SAC 协议 组 添加 多 个 应 用 协议 ,每 个 SAC 协议 组 最 多 
可 以 配置 32 个 应 用 协议 。 


SAC 的 另外 一 个 作用 是 它 支 持 接口 的 流量 统计 功能 , 可 以 把 接口 的 流量 统计 数据 上 
报 给 网 管 系统 ， 由 网 管 记录 上 报 的 数据 ,分 析 业 务 应 用 及 带宽 分 布 情况 ， 形 成 统计 报表 。 
并 由 网 络 管理 员 根 据 统计 流量 分 析 ， 做 出 相应 的 业务 决策 ， 保 障 关键 业务 带宽 ， 限 制 垃 
圾 流量 。 

例 : 使 用 SAC 统计 进出 公司 路 由 器 的 业务 流量 ， 上 连 运 营 商 的 接口 G2/0/0。 

<Huawei> system view 

[Huawei] interface gigabitethernet 2/0/0 

[Huawei-GigabitEthernet1/0/0] sac protocol-statistic enable 

# 查看 接口 GE2/0/0 所 有 SAC 应 用 协议 的 报 文 统计 信息 

<Huawei> display sac protocol-statistic all interface gigabitethernet 2/0/0 





Protocol 。 Direction Packets Bytes Rate(bps) 

HTTP Inbound 59,043 24,620,931 0 
Outbound 227,810 94,996,770 0 

# 

说 明 : 


1) 当 需 要 对 流量 进行 重新 统计 时 , 可 以 先 清除 当前 的 统计 信息 ,使 用 命令 : reset counters 
interface 接口 编号 ，; 
2) 交换 设备 不 支持 SAC。 


10.4 标记 


10.4.1 本 地 优先 级 和 报 文 优 先 级 


标记 是 对 分 类 的 流量 打上 不 同 的 标签 ， 据 此 分 级 别 对 待 不 同 的 数据 ， 称 为 优先 级 标 
记 。 根 据 优 先 级 标记 的 作用 ， 华 为 设备 可 分 为 设备 内 部 优先 级 〈 又 称 为 本 地 优先 级 ) 和 
报 文 优 先 级 (又 称 外 部 优先 级 )。 设备 内 部 优先 级 是 对 进 到 设备 内 部 的 数据 报 文 给 予 的 一 
个 内 部 优先 级 标记 值 ， 根 据 该 值 可 在 设备 内 部 分 配 或 优化 资源 分 配 ， 如 选择 队列 。 

e ”设备 内 部 优先 级 和 报 文 优先 级 的 关系 : 

。 设备 内 部 优先 级 是 用 于 内 部 资源 分 配 和 调度 使 用 的 值 ， 每 个 进 到 设备 的 报 文 一 

定 都 会 得 到 一 个 值 ， 该 值 根据 入 接口 配置 的 信任 或 Remark 功能 而 生成 ; 
e ” 报 文 优先 级 是 报 文 本 身 所 携带 的 QoS 标记 值 。 两 层 报 文 使 用 802.1p 或 EXP， 
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而 三 层 报 文 多 使 用 IP Precedence 和 DSCP。 报 文 在 离开 设备 时 ， 报 文 优先 级 可 
会 被 重 写 (rewrite)， 把 内 部 优先 级 作为 报 文 优先 级 携带 出 去 。 


10.4.2 ”优先 级 映射 


优先 级 映射 是 在 交换 机 或 路 由 器 内 部 把 报 文 携带 的 QoS 优先 级 与 设备 内 部 优先 级 
做 转换 ， 从 而 使 设备 根据 内 部 优先 级 提供 有 差别 的 QoS 服务 质量 的 过 程 。 

不 同 的 网 络 技术 ，QoS 优先 级 标记 会 不 同 ， 用 户 可 以 根据 网 络 规划 在 相应 网 络 上 使 
用 相应 的 QoS 优先 级 标记 。 例 如 ， 以 太 网 络 上 〈802.1Q 链 路 ) 使 用 802.1p， 卫 网 络 中 
使 用 IP Precedence 或 DSCP，MPLS 网 络 中 使 用 EXP 等 。 

华为 设备 在 其 入 口 根据 接口 信任 的 信任 关系 配置 映射 表 生 成 内 部 优先 级 。 在 出 口 ， 
根据 内 部 优先 级 或 802.1p 选择 出 队列 ， 并 映射 到 报 文 优 先 级 。 

当 报 文 经 过 不 同 网 络 时 ， 为 了 保持 报 文 的 优先 级 ， 需 要 在 连接 不 同 网 络 的 设备 上 配 
置 这 些 优先 级 字段 的 映射 关系 。 当 数据 报 文 进入 设备 时 ， 其 外 部 优先 级 字段 (802.1p 或 
DSCP 或 MPLS EXP) 被 映射 为 内 部 优先 级 ; 报 文 离开 设备 时 ， 将 内 部 优先 级 映射 为 外 
部 优先 级 字段 。 在 图 10-3 中 ， 不 同 的 网 络 使 用 不 同 的 外 部 优先 级 标记 字段 。 


802.1p DSCP/IPP EXP 





图 10-3 ”网络 中 的 QoS 标记 

例 : 在 交换 换 网 络 中 ,使 用 802.1p 分 配 资源 ， 在 三 层 路 由 器 上 ,使 用 DSCP 或 IPP， 
而 在 MPLS 网 络 上 使 用 EXP 来 区 分 报 文 , 在 不 同 网 络 的 边界 要 做 不 同 标记 的 映射 。 有 些 
映射 是 自动 发 生 的 ， 有 些 映 射 要 手工 配置 实现 。 
10.4.3 ”优先 级 种 类 

不 同 的 QoS 标记 打 在 不 同 的 报 文 上 ， 据 此 可 分 级 别 对 待 不 同 的 数据 ， 依 据 报 文 
工作 的 协议 层次 ， 在 两 层 和 三 层 报 文 头 部 都 含有 相应 的 QoS 标记 。 两 层 的 QoS 标记 
有 以 太 网 上 的 802.1p 标记 和 MPLS 上 标签 中 的 EXP 标记 ,三 层 的 标记 有 了 了 Precedence 
和 DSCP。 

10.4.3.1 802.1p 

以 太 网 上 两 层 QoS 标记 是 802.1p( 如 图 10-4 所 示 )， 即 User Priority， 根 据 字 域 的 大 
小 ， 级 别 数量 为 0~~7。 数 值 越 大 ， 级 别 越 高 。 


TAG 
mo] mT [om] [| [| 
| CFI VLAN ID 


(802.1p User Priority) 
图 10-4 ”两 层 QoS 标记 一 一 802.1p 
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以 太 网 帧 上 的 802.1p 标记 又 常 被 称 为 CoS (Classification of Service )。 
CoS 值 多 用 在 两 层 设 备 上 或 /和 LAN 有 连接 端口 的 三 层 设备 上 。 
说 明 : 
1) 只 在 Trunk 或 Hybrid 链 路 上 出 现 的 tagged 帧 才 携带 802.1p 优先 级 ， 
2) 一 般 使 用 802.1p 的 Frame 和 其 三 层 IPP 中 优先 级 别 相对 应 ， 例 ，802.1p 为 5，IPP 
也 为 5， 这 类 报 文 多 分 配给 VolP 语音 ; 
3) 在 接 入 层 LAN 设备 中 多 使 用 802.1p 来 分 配 资 源 。 


10.4.3.2 EXP 

MPLS EXP 字段 : 

MPLS 报 文 与 普通 的 IP 报 文 相 比 增加 了 标签 信息 ， 标 签 的 长 度 为 4 个 字 节 ， 封 装 结 
构 如 图 10-5 所 示 。 


Link layer header Layer 3 header Layer 3 payload 


20bits 3bits 1bit 8bits 


10-5 ”MPLS 标签 的 封装 格式 





标签 共有 4 个 字 域 。 

Label: 20 位 ， 标 签 值 字 段 ， 用 于 转发 的 标记 。 

EXP: 3 位 ， 保 留 字段 ， 用 于 扩展 ， 现 在 通常 用 作 CoS 。 

S: 1 位 ， 栈 底 标识 。MPLS 支持 标签 的 分 层 结构 ， 即 多 重 标签 ，S 值 为 1 时 表明 为 
最 底层 标签 。 

TTL: 8 位 ， 和 了 PP 分 组 中 的 TTL (Time To Live) 意义 相同 。 

对 于 MPLS 报 文 ， 通 常 将 标签 信息 中 的 EXP 域 作 为 MPLS 报 文 的 CoS 域 , 与 二 网 
络 的 ToS 域 等 效 ， 用 来 区 分 数据 流量 的 服务 等 级 ， 以 支持 MPLS 网 络 的 DiffServ。EXP 
字段 表示 8 个 传输 优先 级 ， 按 照 优 先 级 从 高 到 低 顺 序 取 值 为 7、6……1 和 0。 

在 了 P 网 络 ， 由 了 全 报 文 的 IP 优先 级 或 DSCP 标识 服务 等 级 。 但 是 对 于 MPLS 网 络 ， 
由 于 报 文 的 卫 头 对 LSR (Label Switching Router) 设备 是 不 可 见 的 ， 所 以 需要 在 MPLS 
网 络 的 边缘 对 MPLS 报 文 的 EXP 域 进行 标记 。 

缺 省 的 情况 下 ， 在 MPLS 网 络 的 边缘 ， 将 全 报 文 的 他 优先 级 直接 拷贝 到 MPLS 报 
文 的 EXP 域 ; 但 是 在 某 些 情况 下 ， 如 ISP 不 信任 用 户 网 络 或 者 ISP 定义 的 差别 服务 类 别 
不 同 于 用 户 网 络 ， 则 可 以 根据 一 定 的 分 类 策略 ,依据 内 部 的 服务 等 级 重新 设置 MPLS 报 
文 的 EXP 域 ， 而 在 MPLS 网 络 转发 的 过 程 中 保持 IP 报 文 的 ToS 域 不 变 。 

在 MPLS 网 络 的 中 间 节 点 ， 根 据 MPLS 报 文 的 EXP 域 对 报 文 进行 分 类 ， 并 实现 拥 
塞 管理 ， 流 量 监管 或 者 流量 整形 等 PHB 行为 。 
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10.4.3.3 IP Precedence 
8 bits 


Precedence TOS 


图 10-6 三 层 QoS 标记 一 一 IP Precedence 


IP Precedence 也 是 IP 报 文 上 的 一 个 标记 ， 占 ToS 字 域 的 头 3 位 ， 同 CoS 相似 ， 值 
越 大 ， 代 表 的 优先 级 别 就 越 高 ， 是 比较 老 的 一 种 QoS 标记 ， 在 一 些 传统 的 QoS 工具 中 
使 用 较 多 。 最 高 优先 级 是 6 和 7， 经 常 是 为 路 由 选择 或 更 新 网 络 控制 通信 保留 的 ， 用 户 
级 应 用 仅 使 用 0 一 5。 华 为 设备 的 系统 协议 ， 如 OSPF、BGP、PIM 等 都 默认 使 用 IPP 6 
标记 ， 所 以 多 使 用 IPP 6 去 识别 系统 报 文 。IPP 值 和 名 字 的 对 应 关系 见 表 10-2 所 示 。 









IP Header, 
Before DiffServ 


表 10-2 IPP 值 和 名 字 的 对 应 关系 
Field and Value (Decimal) Va me Defined by This RFC 
Precedence 0 791 
Precedence 1 ed 791 
Precedence 2 | 00 | immediate | 791 
Precedence 3 | 791 
Precedence 4 | 10 | flashoverride | 791 
Precedence 5 791 
Precedence 6 | 110 | intemetwork control | 791 
Precedence 7 | 1 | networkcontrol | 791 


ToS 域 中 还 包括 D、T、R、C 四 位 。 

e  D 位 表示 延迟 要 求 (Delay，0 代表 正常 延迟 ，1 代表 低 延 迟 )。 

e。 T 位 表示 吞吐 量 (Throughput，0 代表 正常 吞吐 量 ，1 代表 高 吞吐 量 )。 

e。 有 R 位 表示 可 靠 性 (Reliability，0 代表 正常 可 靠 性 ，1 代表 高 可 靠 性 )。 

。 C 位 表示 传输 开销 (Monetary Cost)。(RFC1349) 

说 明 : 

根据 IPP 定义 ， 数 值 0 ~ 7 可 定义 8 个 优先 级 别 ， 级别 较 少 ， 当 前 建议 使 用 DSCP 标记 。 
10.4.3.4 DSCP 值 


DS Field* Bytes 3-20 


IP Header, 
After DiffServ 





8 bits 


图 10-7 三 层 QoS 标记 一 一 DSCP 


721 Sus 


sa | HCIE 路 由 交换 学 指南 | 

IETF DiffServ 工作 组 在 RFC2474 中 将 IPv4 报 文 头 ToS 域 中 的 0 一 $ 位 重新 定义 为 
DSCP， 因 其 占 ToS 域 的 头 6 位 ， 数 值 空 间 是 2 所 64， 可 最 多 提供 64 个 级 别 的 差分 服务 。 

在 DiffServ 模型 中 , 使 用 DSCP 值 来 标记 流量 , 不 同 的 流量 使 用 不 同 的 数值 ，DSCP 
定义 PHB 去 代表 某 类 QoS 动作 ，PHB (Per-Hop Behaviors) 是 DiffServ 节点 作用 于 数据 
流 的 行为 ,网 络 管理 员 可 以 配置 DSCP 到 PHB 的 映射 关系 , 如果 DS 节点 (使 用 DSCP QoS 
的 设备 ) 接收 到 一 个 报 文 ， 检 查 其 DSCP， 发 现 未 定义 到 PHB 的 映射 ， 则 DS 节点 将 选 
择 采 用 缺 省 PHB〈 即 Best-Effort，DSCP=000000) 进行 转发 处 理 。 每 个 DS 节点 必须 支 
持 该 缺 省 PHB。 

IETF DiffServ 工作 组 目前 定义 了 四 种 PHB。 

。 Default PHB: 提供 best-effort 服务 ， 数 值 为 0。 

e ”Class-Selector PHB: 后 3 位 数值 为 0， 头 三 位 非 0 的 DSCP， 用 来 和 IPP 兼容 。 

e Expedited Forwarding PHB: 服务 于 低 延 迟 应 用 ， 数 值 为 46。 

e Assured Forwarding PHB: 用 于 提供 带宽 保证 ， 数 值 请 参见 图 10-8。 


PHB DSCP IP ee 


0 
Default 
Ge wd 000000 0 


8 
(Less- east Be Effont) = 001000 1 


Assured Low Drop Med Drop High Drop 
Forwarding Pref Pref. Pref. 本 a 

Class 1 AF11 Eee 001010 001110 1 

18 20 22 
Class 2 AF21 010110 2 

8 30 
Class 3 | AF31 | AF32 [sr33| ol1010 011110 3 

36 38 
Class 4 AF41 [As | 100010 100110 4 
i 
Forwarding | BF | O12 2 


10-8 AF/EF/CS/Default PHB 










说 明 : 

1) Default PHB 是 所 有 未 显示 定义 的 报 文 所 使 用 的 QoS 标记 ， 数 值 是 0。 

2) ClassSelector， 又 称 为 类 选择 器 ， 可 以 根据 PHB 的 取 值 把 流量 分 成 7 个 级 别 ， 它 的 
特征 是 DSCP 后 三 位 取 值 为 0， 而 头 三 位 为 非 0。 根 据 头 三 位 的 构成 可 分 成 7 个 值 ， 分 别 
为 CS1，CS2，CS3……:CS7， 这 一 类 值 是 用 来 和 IP precedence 相 兼 容 的 。 例 ， 如 果 报 文 的 IPP 
值 为 5， 则 其 对 应 的 DSCP 为 CS5， 如 果 IPP 值 为 6， 其 对 应 的 DSCP 值 为 CS6。 

3) AF PHB 是 这 样 一 类 DSCP 数值 ， 它 的 特征 是 : 

二 进 制 数值 的 最 后 1 位 为 0; 

ee 后面 倒数 第 二 和 第 三 位 的 取 值 为 01、10 和 11， 这 三 个 数 代表 丢弃 可 能 性 ， 数 值 
越 大 其 丢弃 概率 就 越 大 ; 

e 前 三 位 的 构成 为 001、010、011、100， 数 值 越 大 代表 转发 级 别 越 高 ; 

e@ 根据 头 三 位 和 接 下 来 两 位 所 构成 的 数值 关系 ， 可 得 12 个 DSCP 数值 ， 并 分 成 四 

大 类 ， 分 别 为 AF11/12/13、AF21/22/23、AF31/32/33、AF41/42/43。 其 中 ， 每 类 里 


722 


OR ETON END TO TERA EE 人 人 | 第 + 章 Qos| ___ 
面 分 成 三 类 ， 是 基于 丢弃 可 能 性 来 划分 的 。 
4) EF 类 ， 这 一 类 数值 对 应 二 进 制 数 101110， 对 应 数值 为 46， 多 分 配给 时 延 敏 感 的 
VolP 流量 。 


10.4.3.5 ”生成 内 部 标记 (一) 信任 关系 
当 报 文 进入 设备 内 部 时 ， 根 据 接口 配置 的 信任 状态 决定 设备 内 部 的 优先 级 ， 在 报 文 
的 入 端口 上 设置 信任 关系 ， 会 影响 内 部 优先 级 和 报 文 优先 级 。 使 用 命令 : trust { 8021p 
[ override ] | dscp [ override ] | exp }， 设 备 可 选择 其 中 一 种 进行 配置 。 
1. 信任 报 文 的 802.1p 优先 级 一 trust 8021p 
。 对 于 带 VLAN Tag 的 报 文 , 设备 根据 报 文 携 带 的 802.1p 优先 级 查找 优先 级 映射 
表 ， 生 成 内 部 优先 级 ， 确 定 报 文 进入 的 队列 ， 并 修改 报 文 的 优先 级 值 。 
e ”对 于 不 带 VLAN Tag 的 报 文 ， 设 备 将 使 用 端口 优先 级 作为 802.1p 优先 级 ， 查 找 
优先 级 映射 表 ， 确 定 报 文 进入 的 队列 ， 并 可 以 修改 报 文 的 优先 级 值 。 
。 ”建议 LAN 中 使 用 信任 802.1p 生成 内 部 优先 级 。 
例 : 企业 网 内 部 LAN 侧 的 语音 、 视 频 和 数据 业务 通过 SwitchA 和 SwitchB 连接 到 
RouterA 的 Eth2/0/0 和 Eth2/0/1 上 ,并 通过 RouterA 的 GE3/0/0 接口 连接 到 WAN 侧 网 络 。 
如 图 10-9 所 示 。 





图 10-9 企业 网 络 结构 


不 同业 务 的 报 文 在 LAN 侧 使 用 802.1p 优先 级 进行 标识 ， 在 RouterA 上 根据 报 文 的 
8021p 优先 级 选择 入 队列 ， 要 求 配置 优先 级 映射 表 ， 根 据 报 文 的 802.1p 优先 级 修改 报 文 
中 的 DSCP 优先 级 值 提供 差分 服务 ， 使 802.1p 值 为 3 的 内 部 优先 级 是 AF31，802.1p 值 
为 5 的 内 部 优先 级 是 EF。 

# 配置 优先 级 映射 在 路 由 器 A 上 

# 配置 Eth2/0/0 和 Eth2/0/1 接口 信任 报 文 的 802.1p 优先 级 

[RouterA] interface ethernet 2/0/0 

[RouterA-Ethernet2/0/0] trust 8021p 

[RouterA-Ethernet2/0/0] quit 

[RouterA] interface ethernet 2/0/1 

[RouterA-Ethernet2/0/1] trust 8021p 

[RouterA-Ethernet2/0/1] quit 

# 配置 优先 级 映射 关系 

[RouterA] qos map-table dotlp-dscp 
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[RouterA-maptbl-dotlp-dscp] input 3 output 26 
[RouterA-maptbl-dotlp-dscp] input 5 output 46 
# 验证 配置 结果 | 

# 查看 RouterA 上 的 优先 级 映射 信息 
<RouterA> display qos map-table dotlp-dscp 


Input Dotlp DSCP 
0 0 
1 8 
16 
3 26 
4 32 
3 46 
6 48 
7 56 
#trust 8021p 后 ， 根 据 802.1p 生成 内 部 优先 级 
说 明 : 


内 部 优先 级 使 用 同 DSCP 一 样 的 取 值 范围 ， 可 以 做 到 同 DSCP 一 致 的 精细 化 控制 。 
进 到 设备 的 802.1p 为 3 的 报 文 , 在 设备 内 部 使 用 内 部 优先 级 AF31。 同 理 , 802.1p 
为 5 的 报 文 ， 在 设备 内 部 分 配 内 部 优先 级 EF。 

当 报 文 从 出 口 离 开设 备 时 ， 报 文 优先 级 没有 被 改写 。 


2. 信任 报 文 的 DSCP 优先 级 一 一 trust dscp 
设备 按照 报 文 携带 的 DSCP 值 查找 DSCP 优先 级 映射 表 ， 生 成 内 部 优先 级 。 
例 : 根据 DSCP 值 生 成 内 部 优先 级 ， 默 认 情况 下 ， 进 入 报 文 的 DSCP 值 和 生成 的 内 


部 优先 级 值 相 同 。 


#display qos map-table dscp-dscp 查看 信任 DSCP 时 所 使 用 的 映射 表 


[R2]display qos map-table dscp-dscp 


Input DSCP DSCP 
0 0 
1 1 
2 2 
3 3 
4 4 
5 5 
6 6 
于 7 
3， 8 
9 9 
10 10 
11 11 
12 2 
13 13 
14 14 
15 15 
16 16 
1 3% 
18 18 
19 19 
20 20 


El 724 


中 








ay IHCIEmaxm33 所 | 

3. 设置 override 与 否 可 影响 是 否 配 置 报 文 优先 级 一 一 trust dscp override 和 trust 8021p 
Override 

配置 override 与 否 ， 不 影响 内 部 优先 级 的 生成 ， 但 会 影响 经 过 设备 的 报 文 优先 级 ， 
报 文 优先 级 会 被 改写 成 内 部 优先 级 。 

未 配置 override 关键 词 时 ， 进 入 的 报 文 按照 指定 优先 级 映射 生成 内 部 优先 级 ， 但 离 
开 时 报 文 优先 级 并 不 修改 ， 报 文 优先 级 透 传 。 

配置 override 关键 词 后 ， 离 开设 备 的 报 文 的 802.1p 值 、DSCP 值 均 被 修改 成 内 部 优 
先 级 。 

例 : 设备 在 报 文 入 口 配置 trust 8021p， 报 文 优先 级 中 802.1p 为 3， 而 DSCP 为 24; 
内 部 映射 表 802.1p-to-dscp 修改 后 802.1p 值 3 所 对 应 的 DSCP 为 26, dscp-to-dscp 映射 表 
中 24 映射 为 24, 在 设备 的 入 口 配置 trust 8021p override。 则 离开 设备 时 ， 报 文 优先 级 802.1p 
值 和 DSCP 值 分 别 是 多 少 ? 

同样 的 场景 ， 如 果 在 设备 入 口 配置 trust dscp override， 则 离开 设备 时 ， 报 文 优先 级 
中 802.1p 和 dscp 值 分 别 是 多 少 ? 

答 : 进入 设备 后 ， 根 据 映射 表 生 成 内 部 优先 级 ; 

配置 trust 8021p override 后 ， 离 开设 备 的 报 文 优先 级 为 802.1p=3，dscp=26; 

配置 trust dscp override 后 ， 离 开设 备 的 报 文 优先 级 为 802.1p=3，dscp=24; 

802.1p=3 根据 dscp-to-802.1p 映射 而 生成 。 内 部 优先 级 DSCP=24， 会 有 对 应 的 内 部 
优先 级 802.1p=3。 报 文 离开 时 用 内 部 优先 级 802.1p 和 dscp 修改 报 文 优先 级 。 

说 明 : 

上 述 实 现 依 设备 类 型 而 有 差别 ， 上 述 配 置 对 AR2201-48FE、AR2202-48FE、AR2220、 
AR2240 或 AR3200 系列 设备 有 效 。 其 他 设备 请 参考 配置 手册 说 明 。 


4.， 端口 优先 级 


每 个 进入 设备 的 报 文 都 需要 内 部 优先 级 ， 如 果 端 口 信任 802.1p， 但 报 文本 身 没 有 对 
应 的 Vlan Tag， 此 种 情况 下 ， 会 使 用 到 端口 优先 级 。 每 个 端口 的 默认 端口 优先 级 为 0， 


使 用 规则 如 下 。 
。 ”端口 处 于 信任 802.1p 状态 时 ， 若 收 到 不 带 Vlan Tag 的 报 文 , 设备 将 根据 端口 优 
先 级 生成 内 部 优先 级 并 转发 。 


。 ”端口 处 于 不 信任 状态 时 ， 即 没有 配置 任何 Trust 命令 ， 所 有 报 文 都 将 根据 端口 
优先 级 进入 一 个 队列 ， 无 法 实现 差分 服务 。 
例 : 端口 G0/0/0 下 ， 使 进入 的 报 文 (没有 Vlan Tag) 离开 设备 时 使 用 队列 1。 同 理 ， 


使 端口 G0/0/1 进来 的 任何 报 文 都 进入 队列 2。 
#G0/0/0 端口 修改 端口 优先 级 为 1， 同 理 ， 修 改 G0/0/1 端口 优先 级 为 2 
[RouterAJinterface GO/0/0 
[RouterA-Ethernet0/0/0] port priority 1 
[RouterA-EthernetO/0/0] quit 
[RouterAjinterface GO/0/1 
[RouterA-Ethernet0/0/1] port priority 2 
[RouterA-Ethernet0/0/1] quit 
#G0/0/0 和 G0/011 端口 默认 处 于 非 信 任 状 态 
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5. 信任 边界 

华为 设备 可 以 在 接口 上 设置 4 种 信任 状态 
信任 EXP。 

如 果 接 口 处 于 不 信任 状态 ， 设 备 在 报 文 离开 时 重 写 或 清除 原 有 报 文 优先 级 ， 重 新 生 
成 的 报 文 优先 级 在 网 络 中 继续 使 用 。 建 议 在 网 络 边缘 设备 上 对 进入 的 报 文 不 做 信任 ， 而 
在 网 络 中 间 设 备 上 重新 标记 报 文 优先 级 。 我 们 把 信任 报 文 优先 级 的 设备 所 组 成 的 网 络 区 
域 称 为 信任 域 ， 而 第 三 方 设备 或 外 部 网 络 或 终端 等 设备 所 代表 的 区 域 称 为 非 信 任 域 。 服 
务 质量 工程 师 在 设计 QoS 时 会 在 接 入 层 交 换 机 或 企业 边缘 设备 入 口上 设置 不 信任 状态 。 
对 报 文 优先 级 做 不 信任 处 理 ， 可 在 设备 内 部 生成 符合 企业 服务 规范 的 报 文 优先 级 ， 并 在 
企业 网 络 内 部 信任 域 中 使 用 。 这 种 不 信任 设备 (或 非 信任 域 》 和 信任 域 的 边界 称 为 信任 
边界 。 

图 10-10 中 ， 在 企业 网 络 的 边缘 设备 上 ， 如 接 入 层 交 换 机 、 内 外 网 络 的 边缘 、 企 业 
与 第 三 方 网 络 的 边界 互联 设备 都 是 外 部 业务 报 文 进来 的 位 置 , 此 位 置 建议 重新 打 标 记 ( 上 
色 )， 信 任 边界 不 信任 任何 外 部 网 络 进来 的 报 文 优先 级 。 





不 信任 、 信 任 802.1p、 信 任 DSCP、 











3 
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图 10-10 ”信任 域 与 信任 边界 


10.4.3.6 ”生成 内 部 标记 (二) MQC 中 的 Remark 工具 

在 报 文 进入 设备 时 ， 除 配置 信任 外 ， 接 口 还 有 其 他 方式 生成 内 部 优先 级 ， 如 MQC 
和 CAR 等 Remark 工具 ,使 用 这 些 机 制 在 报 文 进入 设备 时 生成 的 QoS 标记 即 是 内 部 优先 
级 ， 同 时 也 是 报 文 离开 设备 时 的 报 文 优先 级 。 

车 接口 同时 配置 信任 和 其 他 Remark 工具 ，Remark 配置 优 于 信任 起 作用 。 

例 : 在 企业 网 络 边 界 ， 把 进入 企业 网 络 内 部 的 所 有 RTP 报 文 打上 DSCP EF 标记 。 

[huaweijtraffic classifier voip 

[huawei-classifier-voip]if-match rtp start-port 16384 end-port 32767 

[huawei-classifier-voip]quit 

[huaweiltraffic behavior bl 


[huawei-behavior-bl]remark dscp ef 
[huawei-behavior-bl lquit 
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[huaweijtraffic policy pl 

[huawei-trafficpolicy-pl]eljassifier voip behavior bl 
[huawei-trafficpolicy-pl]quit 

[huaweilint g0/0/0 

[huawei-GigabitEthernet0/0/0]traffic-policy pl inbound 
[huawei-GigabitEthernet0/0/0]quit 

##MQC remark 修改 报 文 优先 级 ， 该 报 文 优先 级 也 是 内 部 优先 级 
10.4.3.7 报 文 离开 设备 ( 三 ) 重 写 报 文 优先 级 


如 果 设 备 在 报 文 入 口 仅 配 置信 任 且 开 启 override， 则 从 出 接口 出 去 的 报 文 优 先 级 是 
内 部 优先 级 ， 下 游 设备 根据 报 文 优先 级 执行 差分 服务 。 

如 果 使 用 MQC 或 CAR Remark 为 报 文 设置 优先 级 ， 则 离开 的 报 文 优先 级 就 是 在 报 
文 入 口 配置 的 优先 级 。 图 10-11 为 企业 网 络 拓扑 图 。 

示例 : 





图 10-11 企业 网 络 拓扑 


企业 网 内 部 LAN 侧 的 语音 、 视 频 和 数据 业务 通过 SwitchA 和 SwitchB 连接 到 RouterA 
的 Eth2/0/0 和 Eth2/0/1 上 ， 并 通过 RouterA 的 GE3/0/0 接口 连接 到 WAN 侧 网 络 。 

不 同业 务 的 报 文 在 LAN 侧 使 用 802.1p 优先 级 进行 标识 ， 在 RouterA 上 根据 报 文 的 
802.1p 优先 级 入 队列 ， 当 报 文 从 GE3/0/0 接口 到 达 WAN 侧 时 ， 需 要 根据 报 文 的 DSCP 
优先 级 提供 差分 服务 ， 配 置 优先 级 映射 表 ， 可 以 根据 报 文 的 802.1p 优先 级 修改 报 文中 的 
DSCP 优先 级 值 。 

用 如 下 的 思路 配置 优先 级 映射 : 

。 ”在 RouterA 创建 VLAN、VLANIF， 并 配置 各 接口 ， 使 企业 用 户 能 通过 RouterA 

访问 WAN 侧 网 络 ; 

。 ”在 RouterA 上 配置 端口 信任 的 报 文 优先 级 为 信任 报 文 的 802.1p 优先 级 ; 

。 在 RouterA 上 配置 优先 级 映射 表 , 修改 802.1p 优先 级 与 DSCP 优先 级 之 间 的 映 

射 关系 ， 使 设备 能 根据 要 求 ， 按 照 报 文 的 802.1p 优先 级 为 其 修改 不 同 的 DSCP 
优先 级 值 。 

配置 优先 级 映射 

# 配置 Eth2/0/0 和 Eth2/0/1 接口 信任 报 文 的 802.1p 优先 级 

[RouterA] interface ethernet 2/0/0 

[RouterA-Ethemet2/0/0] trust 8021p override 

[RouterA-Ethernet2/0/0] quit 
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[RouterA] interface ethernet 2/0/1 
[RouterA-Ethernet2/0/1] trust 8021p override 
[RouterA-Ethernet2/0/1] quit 

# 配置 优先 级 映射 关系 

[RouterA] qos map-table dotlp-dscp 
[RouterA-maptbl-dotlp-dscp] input 2 output 14 
[RouterA-maptbl-dotIp-dscp] input 5 output 40 
[RouterA-maptbl-dotlp-dscp] input 6 output 46 
验证 配置 结果 

# 查看 RouterA 上 的 优先 级 映射 信息 
<RouterA> display qos map-table dotlp-dscp 


Input Dotlp DSCP 

0 0 

1 8 

2 14 

3 24 

4 32 

40 

6 46 

7 56 | 


# 查看 RouterA 接口 的 配置 信息 
<RouterA> system-view 
[RouterA] interface ethernet 2/0/0 
[RouterA-Ethemet2/0/0] display this 
# 
interface Ethernet2/0/0 
port link-type trunk 
port trunk allow-pass vlan 20 
trust 8021p override 
并 
Teturn 
[RouterA-Ethernet2/0/0] quit 
[RouterA] interface ethernet 2/0/1 
[RouterA-Ethernet2/0/1] display this 
# 
interface Ethernet2/0/1 
port link-type trunk 
port trunk allow-pass vlan 30 
trust 8021p override 
# 
return 


10.5 ”队列 技术 


随 着 生活 质量 的 提高 、 网 络 业 务 种 类 繁多 ， 人 们 对 网 络 质量 的 要 求 也 越 来 越 高 ， 有 
限 的 带宽 与 超 负荷 的 网 络 需求 产生 冲突 , 造成 网 络 中 时 常会 出 现 延迟 、 信 和 号 丢失 等 情况 ， 
这 些 都 是 由 于 设备 出 口 拥塞 所 导致 的 。 

本 节 讲 述 的 拥塞 管理 是 指 在 网 络 间 鞭 性 出 现 拥 塞 时 ， 时 延 敏 感 业务 要 求 得 到 比 其 他 
业务 更 高 质量 的 QoS 服务 , 它 是 通过 调整 报 文 的 调度 顺序 以 满足 时 延 敏感 业务 服务 质量 
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的 一 种 流量 控制 机 制 。 

“拥塞 ”是 指 由 于 进入 设备 的 报 文 数量 过 多 过 快 ， 而 转发 报 文 的 速度 慢 ， 所 以 在 设 
备 出 口 处 “拥堵 ?， 即 接口 的 硬件 转发 队列 存储 空间 满 了 。 硬 件 转发 队列 是 长 度 有 限 的 
FIFO 队列 ， 任何 数据 包 离 开设 备 必 须 经 过 硬件 队列 。 据 此 ， 调 整 硬件 队列 长 度 是 否 可 以 
提高 转发 能 力 ? 

理论 上 FIFO 越 长 ， 接 口 可 存放 的 数据 包 数 量 会 更 多 ， 这 能 减少 拥塞 的 程度 。 但 越 
长 的 FIFO 硬件 队列 会 使 时 延 敏感 的 数据 包 在 队列 中 因 等 待 前 面 的 数据 被 发 送出 去 ， 而 
引入 过 多 的 等 待 延 时 。 所 以 实际 中 很 少 去 手工 调整 FIFO 硬件 队列 的 大 小 ， 更 多 的 都 是 
配置 软件 队列 ， 并 使 用 不 同 的 调度 机 制 ， 以 实现 将 不 同 敏感 程度 的 报 文 放 到 不 同 的 队列 
中 ， 通 过 调度 机 制 来 解决 多 种 业务 争 用 有 限 的 硬件 队列 资源 的 情况 。 其 实 ， 软 件 队列 技 
术 是 通过 保证 高 级 别 业务 数据 所 需要 的 服务 ,而 牺牲 低级 别 队 列 的 数据 的 一 种 解决 方案 。 

华为 支持 两 种 队列 机 制 。 

e ”一 种 是 基于 队列 的 拥塞 管理 机 制 〈queue-profile)， 其 内 部 调度 机 制 可 以 是 以 下 
任何 调度 机 制 ， 华 为 设备 在 LAN 接口 上 可 用 的 调度 技术 分 为 PQ、DRR、 
PQ+DRR、WRR、PQ+WRR，WAN 接口 上 的 调度 技术 分 为 PQ、WFQ 和 
PQ+WFQ。 

e 一 种 是 基于 MQC 的 CBQ 队列 技术 , 可 以 定义 BE( 即 WFQ)、AF、EF 和 LLQ 
队列 。 

不 同 的 队列 系统 的 区 别 可 以 从 队列 系统 的 报 文 分 类 方式 、 队 首 的 报 文 调度 策略 、 队 

尾 的 丢弃 算法 等 角度 加 以 区 分 。 
本 章 列举 了 华为 Queue-profile 和 CBQ 这 两 种 队列 机 制 。 


10.5.1 软件 队列 技术 (一 ) Qos Queue-profile 


Queue profile 最 多 可 以 定义 8 个 队列 ， 队 列 之 间 可 以 定义 多 种 调度 方式 ， 以 下 是 各 
种 调度 方式 及 其 区 别 。 

10.5.1.1 PQ 调度 

PQ (Priority Queuing) 调度 ， 就 是 严格 按照 队列 优先 级 的 高 低 顺序 进行 调度 。 只 有 
高 优先 级 队列 中 的 报 文 全 部 调度 完毕 后 ， 低 优先 级 队列 才 有 调度 机 会 。 

其 算法 维护 一 个 优先 级 递减 的 队列 系列 ， 并 且 只 有 当 更 高 优先 级 的 所 有 队列 为 空 时 
才 服 务 低 优先 级 的 队列 。 可 将 延迟 敏感 的 关键 业务 放 入 高 优先 级 队列 ， 而 将 非 关 键 业 务 
放 入 低 优先 级 队列 ， 从 而 确保 关键 业务 永远 被 优先 发 送 。 

如 图 10-12 所 示 ，Queue7 比 Queue6 具有 更 高 的 优先 级 ，Queue6 比 Queue5 具有 更 
高 的 优先 级 ， 依 次 类 推 。 只 要 链 路 能 够 传输 分 组 ，Queue7 尽 可 能 快 地 被 服务 。 只 有 当 
Queue7 为 空 , 调度 器 才 考 虑 Queue6。 当 Queue6 有 分 组 等 待 传输 且 Queue7 为 空 时 ,Queue6 
以 链 路 速率 接受 类 似 地 服务 。 当 Queue7 和 Queue6 为 空 时 ，Queue5 以 链 路 速率 接收 服 
务 ， 以 此 类 推 。 图 10-12 中 ，8 个 队列 彼此 之 间 有 高 低级 别 之 分 ， 只 要 高 级 别 队列 里 面 
有 包 ， 报 文 就 先 转发 。 

PQ 调度 的 缺点 是 : 拥塞 发 生 时 ， 如 果 较 高 优先 级 队列 中 长 时 间 有 分 组 存在 ， 那 么 
接口 带宽 就 被 高 级 别 队 列 所 抢占 , 低 优 先 级 队列 中 的 报 文 就 会 由 于 得 不 到 服务 而 “ 饿 死 ”。 
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所 以 此 种 队列 技术 因 其 能 保证 时 延 敏 感 的 报 文 的 服务 质量 但 却 无 法 保证 其 他 流量 的 质量 
而 渐 少 使 用 。 





图 10-12 ”PQ 调度 


例如 : 一 个 100M 的 端口 ， 如 果 接 口 是 8 个 级 别 的 队列 ， 则 只 要 Q7 的 队列 里 面 一 
直 有 报 文 ， 则 接口 100M 带宽 都 被 Q7 队列 消耗 使 用 。 其 他 队列 则 轮 不 到 被 服务 的 机 会 。 
故 很 少 在 Queue-profile 中 单独 使 用 PQ 调度 的 队列 , 现在 比较 推荐 的 方案 是 高 优先 级 PQ 
队列 和 其 他 类 型 调度 机 制 的 队列 一 起 构成 队列 系统 提供 服务 ， 如 PQ+WFQ 等 。 

10.5.1.2 ”WRR 调度 

WRR (Weighted Round Robin) 调度 即 加 权 轮 询 调度 。WRR 其 实 是 RR 队列 调度 技 
术 的 一 种 ，RR 调度 会 依次 在 不 同 队列 之 间 提 供 等 量 服务 ， 调 度 在 队列 间 轮 流 ， 保 证 每 
个 队列 都 得 到 同等 服务 机 会 。 所 以 RR 不 存在 某 个 队列 长 时 间 得 不 到 服务 的 问题 。WRR 
会 根据 每 个 队列 的 重要 程度 ， 为 其 分 配 权 值 (Weight)， 并 根据 权 值 比例 提供 服务 的 调度 
机 制 。 

以 端口 有 8 个 输出 队列 为 例 WRR 可 为 每 个 队列 配置 一 个 加 权 值 (依次 为 w7、w6、 
w5、w4、w3、w2、w1、w0)， 加 权 值 表示 获取 资源 的 比重 。 例 如 : 一 个 100M 的 端口 ， 
配置 它 的 WRR 队列 调度 算法 的 加 权 值 为 50、50、30、30、10、10、10、10〔 依 次 对 应 
WwW7、w6、w5、w4、w3、w2、w1、w0)， 这 样 可 以 保证 最 低 优 先 级 队列 至 少 获 得 5Mbit/s 
带宽 ， 而 避免 了 PQ 调度 时 低 优先 级 队列 可 能 得 不 到 服务 的 问题 。 

WRR 根据 权 值 的 定义 服务 每 个 队列 ， 如 果 当 前 队列 为 室 ， 则 继续 服务 下 一 个 队列 ， 
其 带宽 会 按 比 例 分 配给 其 他 队列 。 系 统 有 8 个 队列 ， 如 果 接 口 当前 权 值 为 w5、w3、w2 
的 队列 内 有 报 文 ， 则 上 述 三 个 队列 分 享 接口 全 部 的 带宽 ， 分 别 是 60Mbit/s、20Mbit/s 和 
20Mbitfs。 任 何 队列 为 空 ， 其 带宽 就 自动 分 给 别 的 队列 使 用 。 

WRR 调度 机 制 使 用 权 值 来 服务 每 个 队列 ， 但 权 值 的 定义 却 有 多 种 形式 ， 可 为 字 节 
量 ， 或 包 的 个 数 ， 或 分 享 的 带宽 值 或 比例 )。 如 图 10-13 所 示 。 

在 进行 WRR 调度 时 ， 设 备 根据 每 个 队列 的 权 值 进行 轮 循 调度 。 调 度 一 轮 权 值 减 一 ， 
权 值 减 到 零 的 队列 不 参加 调度 ， 当 所 有 队列 的 权限 减 到 0 时 ， 开 始 下 一 轮 的 调度 。 例 如 ， 
用 户 根据 需要 为 接口 上 8 个 队列 (q7、q6、q5、q4、q3、q2、ql1) 指定 的 权 值 分 别 为 4、 
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2、5、3、6、4、2 和 1， 按照 WRR 方式 进行 调度 的 结果 请 参见 表 10-3 。 





图 10-13 i 


表 10-3 WRR 调度 结 


队列 索引 _ 和 
区 庆 权 入 “| 站 生生 和 


参加 第 1 轮 调度 
参加 第 2 轮 调度 
Tt 
参加 第 3 轮 调度 
参加 第 4 轮 调度 
J 
参加 第 5 轮 调度 
me 
参加 第 6 轮 调度 
| er 
参加 第 7 轮 调度 
参加 第 8 轮 调度 
参加 第 9 轮 调度 
me | 
参加 第 10 轮 调 
参加 第 11 轮 调 
度 的 队列 
参加 第 12 轮 调 
度 的 队列 


从 统计 上 看 ， 各 队列 中 的 报 文 流 被 调度 的 次 数 与 该 队列 的 权 值 成 正比 ， 权 值 越 大 被 
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调度 的 次 数 相 对 越 多 。 由 于 WRR 调度 是 以 报 文 为 单位 的 ， 因 此 每 个 队列 没有 固定 的 带 
宽 ， 同 等 调度 机 会 下 大 尺寸 报 文 获得 的 实际 带宽 要 大 于 小 尺寸 报 文 获得 的 带宽 。 

WRR 避免 不 了 延迟 敏感 的 报 文 无 法 及 时 得 到 服务 的 问题 ， 所 以 语音 和 视频 等 业务 
不 能 通过 WRR 队列 得 到 服务 保证 ， 这 是 WRR 的 缺点 。 

10.5.1.3 DRR 调度 

DRR (Deficit Round Robin) 调度 实现 原理 与 WRR 调度 基本 相同 。 

DRR (Deficit Round Robin) 调度 同样 也 是 RR 的 扩展 ， 相 对 于 WRR 而 言 ， 解 决 了 
WRR 只 关心 报 文 并 不 关心 报 文大 小 的 问题 ， 所 以 同等 调度 机 会 下 ，DRR 解决 了 大 尺寸 
报 文 获 得 的 实际 带宽 要 大 于 小 尺寸 报 文 获得 的 带宽 的 问题 , DRR 在 调度 过 程 中 考虑 包 长 
的 因素 以 达到 调度 的 速率 公平 性 。 (7 20%) 

DRR 调度 中 ，Deficit 表示 队列 的 带宽 赤字 ， 初 始 值 
为 0。 每 次 调度 前 ， 系 统 按 权 值 为 各 队列 分 配 带 宽 , 计算 (06 1sog) 

Deficit 值 ， 如 果 队 列 的 Deficit 值 大 于 0， 则 参与 此 轮 调 [和 500 | 300 | 400 | 
度 , 发 送 一 个 报 文 , 并 根据 所 发 送 报 文 的 长 度 计算 调度 后 (os 10%) 

的 Deficit 值 , 作为 下 一 轮 调度 的 依据 ; 如 果 队 列 的 Deficit [ | so | 400 | so 
值 小 于 0, 则 不 参与 此 轮 调度 , 当前 Deficit 值 作 为 下 一 轮 \ 

We 

如 图 10-14 所 示 ， 假 设 用 户 配 置 各 队列 权 值 为 40、 
30、20、10、40、30、20、10〔 依 次 对 应 Q7、Q6、Q5、 pT 
Q4、Q3、Q2、Q1、Q0)， 调 度 时 ， 队 列 Q7、Q6、Q5、 

Q4、Q3、Q2、Q1、Q0 依次 能 够 获取 20%、15%、10%、 

5%、20%、15%、10%、5% 的 带宽 。 下 面 以 Q7、Q6 为 本 

例 ， 简 要 描述 DRR 队列 调度 的 实现 过 程 〈 假 设 Q7 队列 

获取 400Byte/s 的 带宽 ，Q6 队列 获取 300Byte/s 的 带宽 )。 一 一 一 - 一 
| 6o | 


\ (QO0.5%) 
© 5 
ps TD 


先 确 定 Deficit 初始 值 : Deficit[7][1] = 0+400 = 400， 图 10-14 ”DRR 调度 逻辑 


Deficit[6][1] = 0+300 = 300， 都 大 于 0， 参 与 调度 ， 如 图 
10-14 所 示 。 从 Q7 队列 取出 一 个 900Byte 的 报 文 发 送 ， 从 Q6 队列 取出 一 个 400Byte 的 
报 文 发 送 ， 发 送 后 ，Deficit[7][1] = 400 - 900 = -500，Deficit[6][1] = 300 - 400 = -100。 

。 第 2 轮 调度 。 

先 判定 Deficit 初始 值 : Deficit[7][2] = -500+400 = -100，Deficit[6][2] = -100+300 = 
200，Q7 队列 Deficit 值 小 于 0， 此 轮 不 参与 调度 ， 从 Q6 队列 取出 一 个 300Byte 的 报 文 
发 送 ， 发 送 后 ，Deficit[6][2] = 200-300 = 一 100。 

。 第 3 轮 调度 。 

Deficit[7][3] = -100+400 = 300，Deficit[6][3] = -100+300 = 200， 从 Q7 队列 取出 一 个 
600Byte 的 报 文 发 送 ， 从 Q6 队列 取出 一 个 400Byte 的 报 文 发 送 ; 发 送 后 ，Deficit[7][3] = 
300 - 600 = -300，Deficit[6][3] = 200-500 = -300。 

整个 调度 过 程 如 此 反复 , 每 个 队列 都 根据 各 自 的 Deficit 和 权 值 决定 服务 的 量 ， 最 终 
Q7、Q6 队列 获取 的 带宽 将 分 别 占 总 带宽 的 20%、15%， 因 此 ， 用 户 能 够 通过 设置 权 值 
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获取 想 要 的 带宽 。 

但 DRR 调度 仍然 没有 解决 WRR 调度 中 低 延 时 需求 业务 得 不 到 及 时 调度 的 问题 。 

10.5.1.4 WFQ (Weighted Fair Queue ) 调度 

WFQ 相 较 于 其 他 队列 技术 能 提供 较 好 的 公平 性 保证 ， 它 具备 FQ 的 公平 性 。 

FQ 把 进入 一 个 队列 的 报 文 称 为 流 ， 系 统 对 待 每 个 流 是 均等 的 ， 每 个 流 都 会 平等 地 
分 享 到 当前 可 用 的 带宽 。 例 如 ， 接 口 带宽 值 为 IM， 系统 当前 有 10 个 流 ， 则 每 个 流 的 带 
宽 为 100kbit/s。 而 下 一 时 刻 ， 若 系统 中 有 20 个 流 ， 则 每 个 流 的 带宽 为 50kbit/s。 但 这 种 
过 度 公平 并 不 能 让 某 个 流 队列 持续 得 到 “静态 分 配 ”( 固 定 ) 的 带宽 , 流 多 了 ， 分享 到 的 
带宽 就 少 了 ， 这 是 这 种 动态 FQ Fair Queue) 的 不 足 。 

FQ 还 关心 流 队列 中 报 文 的 长 度 ， 如 果 在 不 同 队 列 间 同 时 存在 多 个 长 报 文 和 短 报 文 
等 待 发 送 ， 则 短 报 文 会 优先 获得 调度 ， 即 先 调度 各 队列 队 首 的 小 报 文 ， 这 使 FQ 可 减缓 
各 个 流 的 报 文 间 的 抖动 。 

与 FQ 相 比 ，WFQ (Weighted Fair Queue) 在 上 述 小 报 文 优先 的 基础 上 ， 在 计算 报 
文 调度 次 序 时 增加 了 优先 级 方面 的 考虑 。 从 统计 上 ，WFQ 使 高 优先 级 的 报 文 获得 优先 调 
度 的 机 会 多 于 低 优 先 级 的 报 文 。 华 为 在 报 文 入 队列 之 前 ， 先 对 流量 进行 分 类 ， 通 过 优先 
级 映射 ， 给 流量 一 个 本 地 优先 级 ， 每 个 本 地 优先 级 对 应 一 个 队列 号 。 每 个 接口 有 8 个 队 
列 ， 报 文 根 据 队列 号 进入 队列 。 默 认 情况 下 ， 每 个 队列 的 WFQ 权 值 相同 ， 队 列 间 流量 
平均 分 配 接口 带宽 。 用 户 可 以 通过 配置 修改 默认 权 值 〈 值 为 10)， 使 高 优先 级 和 低 优先 


级 按 权 值 比例 分 配 带 宽 。 
故 相 比 其 他 队列 调度 技术 , WFQ 使 高 优先 级 的 报 文 及 短小 报 文 更 易于 获得 优先 调度 
的 机 会 。 


10.5.1.5 ”PQ+WRR/PQ+DRR/PQ+WFQ 调度 

PQ 调度 和 WRR/DRR/WFQ 调度 各 有 优 缺 点 。 单 纯 采 用 PQ 调度 时 ， 低 优先 级 队列 
中 的 报 文 可 能 长 期 得 不 到 调度 ， 而 单纯 采用 WRR/DRR/WFQ 调度 时 低 延 时 需求 业务 得 
不 到 优先 调度 。“PQ+WRR”“PQ+DRR”“PQ+WFQ” 调 度 方式 则 将 两 种 调度 方式 结合 
起 来 ， 不 仅 能 发 挥 两 种 调度 的 优势 ， 而 且 能 克服 两 种 调度 各 自 的 缺点 。 

用 户 可 以 借助 “PQ+WRR”“PQ+DRR”“PQ+WFQ” 调 度 方式 ， 使 重要 的 协议 报 文 
和 有 低 延 时 需求 的 业务 报 文 进 入 PQ 队列 中 进行 调度 ; 而 其 他 报 文 根 据 各 自 的 优先 级 进 
入 采用 WRR/DRR/WFQ 调度 的 各 队列 中 ， 并 按照 相应 权 值 对 各 队列 进行 循环 调度 。PQ 
队列 的 报 文 永远 优 于 其 他 队列 的 报 文 先 被 调度 。 

报 文 按照 优先 级 映射 进入 接口 的 各 个 队列 后 ， 在 从 接口 发 送出 去 时 需要 按照 一 定 的 
规则 进行 调度 。 设 备 上 不 同 接口 支持 不 同 的 调度 模式 ， 队 列 调度 时 ， 先 调度 PQ 队列 ， 
多 个 PQ 队列 按 优先 级 高 低 顺序 进行 调度 。PQ 队列 调度 完成 后 ， 再 对 DRR、WFQ 或 
WRR 队列 进行 加 权 轮 循 调度 。 

设备 上 ， 每 个 接口 出 方向 都 拥有 4 个 或 8 个 队列 ， 以 队列 索引 号 进行 标识 ， 队 列 索 
引号 分 别 为 0、1、2、3 或 0、1……6、7。 设 备 根据 本 地 优先 级 和 队列 之 间 的 映射 关系 ， 
自动 将 分 类 后 的 报 文 流 送 入 各 队列 ， 然 后 按照 各 种 队列 调度 机 制 进行 调度 。 下 面 以 每 个 
接口 8 个 队列 对 各 种 调度 方式 进行 说 明 。 

e ”设备 接口 上 的 8 个 队列 被 分 为 两 组 ， 用 户 可 以 指定 其 中 的 某 几 组 队列 进行 PQ 
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调度 ， 其 他 队列 进行 WFQ 调度 。 只 有 WAN 侧 接 口 支持 PQ+WFQ 调度 。 

。 WRR、DRR 及 WFQ 用 户 根据 自己 的 需要 定义 权 值 ， 默 认 权 值 为 10，PQ 不 需 
要 权 值 ， 因 为 PQ 总 优先 使 用 接口 带宽 。 其 他 队列 的 权 值 决定 彼此 之 间 的 带宽 
划分 比例 。 

。 用户 根据 不 同 的 业务 需要 ， 对 各 队列 中 的 报 文 流 调度 并 非 是 平均 的 。 当 调度 方 
式 为 DRR、WRR、WFQ 时 ， 通 过 给 各 队列 设置 不 同 的 权 值 ， 可 以 根据 权 值 对 
队列 进行 调度 ， 权 值 越 大 的 队列 被 调度 的 次 数 相对 越 多 。 

以 下 示例 是 使 用 混合 调度 的 queue-profile 配置 ， 队 列 0-3 定义 为 WRR 队列 ，4-5 定 

义 为 PQ 类 型 队列 。 

[huawei] qos queue-profile queue-test 

[huawei-qos-queue-profile-queue-test] schedule wrr 0 to 3 pq 4-5 

[huawei-qos-queue-profile-queue-test] queue 0 to 1 weight 20 

[huawei-qos-queue-profile-queue-test] queue 2 weight 30 

# 

[huaweildisplay qos queue-profile queue-test 

Queue-profile: queue-test 

Queue Schedule Weight Length(Bytes/Packets) GTS(CIR/CBS) 








0 WFQ 20 / = 
1 WFQ 20 / 中 
WFQ 30 / 四 
3 WFQ 10 / 
4 PQ Ye / 区 
5 PQ A / 殉 


# 

10.5.1.6 华为 Queue-Profile 队列 实现 

华为 设备 上 可 以 使 用 Queue-profile 来 全 局 定义 可 应 用 到 接口 的 软件 队列 ， 当 硬件 队 
列 拥塞 时 ，Queue-profile 队列 系统 开始 起 作用 。 

Queue-profile 所 定义 的 队列 系统 有 以 下 特点 。 

e。 系统 最 多 可 定义 优先 级 为 0~7 的 8 个 队列 。 设 备 上 ， 每 个 接口 出 方向 都 拥有 4 
个 或 8 个 队列 〈 依 设备 平台 而 异 )， 以 队列 索引 号 进行 标识 ， 队 列 索 引号 分 别 为 
0、1、2、3 或 0、1……6、7。 设 备 根据 内 部 优先 级 选择 队列 ， 并 按 调 度 机 制 
服务 。 

。 ”队列 系统 的 调度 机 制 可 以 是 : 仅 WFQ、 仅 WRR、 仅 DRR、 仅 PQ 或 PQ+ 
WFQ/DRR/WRR 的 混合 调度 方式 。( 注 : 依 有 具体 设备 类 型 而 有 所 不 同 ) 

e。 如果 Queue-profile 中 定义 了 多 个 PQ 队列 ， 则 多 个 PQ 间 根 据 优 先 级 高 低 顺序 
进行 调度 。 

。 ”如 果 在 Queue-profile 中 定义 了 多 个 WFQ/WRR/DRR 的 队列 , PQ 队列 调度 完成 
后 ， 再 对 DRR、WFQ 或 WRR 队列 进行 调度 ， 共 同 分 享 剩 余 的 带宽 。 

。 因为 PQ 队列 先 调度 ,， 所 以 若 PQ 队列 有 持续 的 数据 包 ， 则 其 他 队列 会 面临 “ 饥 
饿 ”问题 。 设 计 建议 是 限制 能 进入 PQ 队列 的 报 文 数量 ， 不 要 过 多 占用 带宽 。 

。 Queue-profile 可 以 应 用 到 逻辑 接口 或 物理 接口 上 ， 逻 辑 接口 配置 优 于 物理 接口 
起 作用 。 如 果 Queue-profile 应 用 到 逻辑 接口 所 对 应 的 物理 接口 上 ， 则 逻辑 接口 
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使 用 物理 接口 的 队列 配置 。( 注 : 逻辑 接口 是 Dialer 接口 、MP-Group 接口 、VT 
接口 、VE 接口 和 Tunnel) 
。 经 过 设备 的 报 文 进入 哪个 队列 ， 依 赖 于 报 文 的 设备 内 部 优先 级 选择 队列 。 
。 Queue-profile 软件 系统 可 以 内 髓 拥塞 避免 和 流量 整形 机 制 。 拥 寨 避免 一 定 要 
和 队列 一 起 工作 ， 离 开 队 列 将 没有 意义 ， 但 拥塞 避免 机 制 不 和 PQ 队列 一 起 
使 用 。 
示例 : 为 设备 定义 软件 队列 ， 要 求 有 两 个 能 为 低 延 迟 业 务 提供 服务 的 优先 级 队列 ， 
同时 ， 对 优先 级 1 一 4 的 业务 ， 使 其 在 接口 按 1: 2: 3: 3 比例 分 享 带宽 ， 并 要 保证 每 个 
队列 能 保存 64 个 包 ， 最 大 缓存 不 超过 200000Byte 数据 量 。 
[huaweilqos queue-profile ql 
[huawei-qos-queue-profile-qllschedule wfq 1 to 4 pq 5 to 6 
[huawei-qos-queue-profile-ql]queue 2 weight 20 
[huawei-qos-queue-profile-qllqueue 3 to 4 weight 30 
[huawei-qos-queue-profile-qllqueue 1 to 4 length packets 64 bytes 200000 
[huaweil]display qos queue-profile ql 
Queue-profile: ql 
Queue Schedule Weight Length(Bytes/Packets) GTS(CIR/CBS) 


1 WFQ 10 200000/64 / 
2 WFQ 20 200000/64 / 
3 WFQ 30 200000/64 / 
4 WFQ 30 200000/64 / 
5 PQ 5 国有 / 
6 PQ a i / 


# 队 列 默认 weight 为 10 
10.5.2 ”软件 队列 技术 (二 ) Class-Based Queueing 


华为 的 男 外 一 种 队列 技术 一 一 CBQ 是 目前 在 大 部 分 平台 上 推荐 使 用 的 软件 队列 , 区 
别 于 Queue-Profile 的 是 ，CBQ 使 用 MQC 来 配置 。 

10.5.2.1 CBQ 调度 

基于 类 的 加 权 公 平 队 列 CBQ〈Class-based Queueing) 是 华为 目前 推荐 使 用 的 队列 技 
术 ， 它 基于 WFQ 功能 ， 并 对 其 做 了 扩展 ， 使 用 户 可 以 自己 定义 用 户 类 。CBQ 根据 卫 优 
先 级 或 者 DSCP 优先 级 、 输 入 接口 、IP 报 文 的 五 元 组 等 规则 来 对 进入 系统 的 报 文 进行 分 
类 ， 每 个 分 类 可 以 使 用 EF、LLQ、AF 和 BE 类 型 的 队列 。 而 对 于 不 匹配 任何 类 别 的 报 
文 ， 送 入 系统 定义 的 缺 省 类 ， 默 认 队 列 是 BE 类 型 。CBQ 是 差分 服务 模型 中 使 用 最 多 的 
队列 技术 。 

CBQ 为 用 户 定 义 的 类 提供 如 下 4 种 类 型 队列 : 

确保 转发 队列 (AF); 

加 速 转发 队列 (EF); 

尽力 而 为 队列 .(BE); 

低 延 时 队列 LLQ)。 

以 下 分 别 介 绍 各 种 队列 。 

EF 队列 和 LLQ 队列 : 满足 低 时 延 业 务 





SO SO EV ep OR EE RR I 
EF 队列 是 严格 优先 级 的 队列 ,适用 于 低 延 时 、 低 丢弃 概率 、 占 用 带宽 不 是 很 大 的 业 
务 ， 例 如 重要 业务 报 文 或 音频 /视频 业务 。 用 户 定义 优先 级 类 来 存放 延迟 敏感 的 业务 ， 每 
个 类 都 有 一 个 优先 级 队列 ， 系 统 会 快速 转发 该 队列 里 面 的 数据 ， 但 由 于 严格 优先 级 队列 
会 “过 多 地 优先 使 用 《或 用 光 ) 接口 带宽 ” 所 以 CBQ 下 的 EF 队列 通过 “内 置 的 限 速 
器 ”来 限制 对 带宽 的 使 用 。CBQ 队列 系统 如 图 10-15 所 示 。 





Class Bandwidth Priority Queue 
Priority Policing (FIFO) 


lvyHvHYHY] 






(ee () 





图 10-15 ”CBQ 队列 系统 


华为 设备 提供 的 低 延 迟 的 队列 ， 除了 EF 队列 ,还 支持 一 种 特殊 的 EF 队列 一 一 LLQ 
队列 ， 它 时 延 更 低 。 对 时 延 极 敏感 的 应 用 〈 如 VoIP 业务 ) 能 提供 更 好 的 服务 质量 保证 ， 
它 较 EF 队列 有 更 好 的 优先 级 转发 能 

报 文 一 旦 进入 EF (或 LLQ) 队列 后 ， 先 优先 调度 ， 仅 当 EF 和 /或 LLQ 队列 中 的 报 
文 调度 完毕 后 ， 才 会 调度 其 他 队列 中 的 报 文 。 

CBQ 队列 中 最 多 只 允许 为 4 个 用 户 类 定义 EF 或 LLQ 队列 ， 即 最 多 可 以 包含 的 LLQ 
队列 和 EF 队列 之 和 为 4。 每 个 EF 和 LLQ 队列 按照 配置 的 顺序 进行 绝对 优先 级 调度 ， 
先 配置 的 队列 优先 被 调度 。 

执行 命令 queue ef bandwidth { bandwidth [ cbs cbs-value ] | pct percentage [ cbs 
cbs-value ] }， 配 置 符 合 要 求 的 某 一 类 报 文 进 入 EF 队列 ， 并 配置 允许 的 最 大 带宽 。 

执行 命令 queue llq bandwidth { bandwidth [ cbs cbs-value ] | pct percentage [ cbs 
cbs-value ] } ， 配 置 符合 要 求 的 某 一 类 报 文 进入 LLQ 队列 ， 并 配置 允许 的 最 大 带宽 。 


[huaweiltraffic behavior bl 
[huawei-behavior-bllqueue ef bandwidth ? 
INTEGER<8-4294967295> Value of bandwidth (Unit: Kbps) 


737 Wa 


| HCIE 路 由 交换 学 习 指 南 | 


pet Percent of Available Bandwidth 
#bandwidth 可 以 配置 带宽 绝对 值 ， 也 可 以 配置 相对 值 
[huawei-behavior-bl]gueue ef bandwidth pct 30 cbs 2000 
#bandwidth 及 cbs 限制 ef 队列 所 最 大 使 用 的 带宽 (接口 带宽 的 30%) 和 最 大 突 发 量 2000 字 节 
# 
[huaweiltraffic behavior b2 
[huawei-behavior-bllqueue llq bandwidth ? 
INTEGER<8-4294967295> Value of bandwidth (Unit: Kbps) 
Percent of Available Bandwidth 
a 可 以 配置 带宽 绝对 值 ， 也 可 以 配置 相对 值 
[huawei-behavior-bl]queue llq bandwidth 1000 cbs 2000 
#llq 队列 最 大 可 用 带宽 1000kbps， 突 发 最 大 为 2000 字 节 


说 明 : 
流行 为 中 配置 了 queue ef 后 ， 不 可 再 为 该 流行 为 配置 queue af、queue llq、queue wfq、gts 
(流行 为 视图 ) 或 gts adaptation-profile。 
一 流 策 略 下 ， 使 用 命令 queue ef 为 EF 队列 配置 可 确保 的 最 大 带宽 时 ， 必 须 统一 使 用 
带宽 数值 或 者 带宽 百分比 ， 不 允许 混合 使 用 。 


AF 队列 : 满足 需要 带宽 保证 的 关键 数据 业务 

每 个 AF 队列 分 别 对 应 一 类 用 户 报 文 ， 用 户 可 以 设 定 每 类 报 文 占用 的 带宽 。 在 系统 
调度 报 文 出 队 的 时 候 ， 按 用 户 为 各 类 报 文 设 定 的 带宽 将 报 文 出 队 发 送 ， 可 以 实现 各 个 类 
的 队列 的 公平 调度 。 当 接口 有 剩余 带宽 时 ，AF 队列 按照 权 值 分 享 剩 余 带 宽 。 同 时 ， 在 
接口 拥塞 的 时 候 ， 仍 然 能 保证 各 类 报 文 得 到 用 户 设 定 的 最 小 带宽 。 当 其 他 队列 带宽 未 使 
用 时 ， 接 口 带宽 可 以 分 配给 当前 队列 使 用 。 

可 以 保证 在 网 络 发 送 的 业务 流量 没有 超过 最 小 可 确保 带宽 的 情况 下 ， 此 队列 中 报 文 
的 丢失 概率 非常 低 。 确 保 转 发 适用 于 流量 较 大 且 需 要 被 保证 的 业务 。 

对 于 AF 队列 ， 当 队列 的 长 度 达 到 队列 的 最 大 长 度 时 ， 缺 省 采用 尾 丢 弃 的 策略 ， 但 
用 户 还 可 以 选择 用 WRED 丢弃 策略 。 

执行 命令 queue af bandwidth { bandwidth | pct percentage } ， 配 置 符合 要 求 的 某 一 类 
报 文 进入 AF 队列 ， 并 配置 可 确保 的 最 小 带宽 。 

BE 队列 : 满足 不 需要 严格 QoS 保证 的 尽力 发 送 业务 

对 于 进入 系统 的 报 文 ， 如 果 报 文 不 匹配 用 户 定义 的 所 有 类 别 ， 则 报 文 被 送 入 系统 定 
义 的 缺 省 类 。 虽 然 允许 为 缺 省 类 配置 AF 队列 ， 并 配置 带宽 ， 但 是 更 多 的 情况 是 为 缺 省 
类 配置 BE 队列 。BE 队列 使 用 WFQ 调度 ， 进 入 到 BE 队列 的 流 的 数量 越 多 ， 则 每 个 流 
分 享 的 带宽 就 越 平 均 ， 这 种 BE 队列 适用 于 那些 对 时 延 和 丢 包 无 特殊 要 求 的 业务 ， 例 如 
普通 上 网 业务 。 

WFQ 这 种 基于 流 的 动态 队列 技术 相 较 于 其 他 队列 技术 能 提供 较 好 的 公平 性 保证 , 每 
个 流 的 报 文 均匀 地 进入 不 同 队列 中 ， 就 可 以 基于 权 值 在 系统 的 每 个 流 之 间 分 配 资源 ， 从 
而 保证 系统 自动 根据 流 来 服务 相应 队列 。 

CBQ 中 ，WFQ 在 调度 报 文 入 队列 之 前 ， 先 对 报 文 按 流 进行 分 类 。WFQ 是 对 “ 流 ” 
定义 和 处 理 的 ， 它 根据 报 文 的 协议 类 型 、 源 和 目的 TCP 或 UDP 端口 号 、 源 和 目的 人 地 
址 、ToS 域 中 的 优先 级 位 等 自动 进行 流 分 类 ， 并 尽 可 能 多 地 提供 队列 ， 以 将 每 个 流 均匀 
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地 放 入 不 同 队列 中 ， 从 而 在 总 体 上 均衡 各 个 流 的 延迟 。 在 出 队 的 时 候 ，WEQ 按 流 的 优先 
级 (precedence) 来 分 配 每 个 流 应 占有 的 带宽 。 优 先 级 的 数值 越 小 ， 所 得 的 带宽 就 越 少 ， 
优先 级 的 数值 越 大 ， 所 得 的 带宽 就 越 多 。 
WFQ 实质 是 基于 权 值 分 配 带宽 的 ， 权 值 是 自动 生成 的 , 基于 报 文 优先 级 ,优先 级 越 
高 ， 则 权 值 会 越 高 ， 分 配 的 带宽 资源 会 相对 增加 。WFQ 中 的 权 值 根据 流 中 报 文 的 人 P 
precedence 值 计 算 带 宽 。 算 法 为 (IP precedence+1) /Sum (IP precedence+1)。 例 如 有 四 
个 流 ， 其 IP precedence 分 别 为 1、2、3、4， 那 么 每 个 流 占 用 的 带宽 分 别 为 2/14、3/14、 
4/14、5/14。 所 以 default-class 中 ， 流 按 优 先 级 不 同 可 分 配 到 不 同 带宽 ， 若 优先 级 相同 则 

流 队 列 具 备 动态 性 ， 流 数据 被 转发 尽 ， 则 此 流 队 列 就 消失 ， 新 的 数据 流出 现 就 自动 出 
现 新 的 对 应 的 流 队列 。 由 于 系统 中 数据 包 转 发 过 快 ， 所 以 动态 队列 的 数量 也 是 瞬息 万 变 的 。 

BE 队列 可 以 设置 给 用 户 自 定义 的 类 和 default-class 类 ,但 部 分 设备 不 允许 为 用 户 定 
义 的 类 定义 BE 队列 ， 只 能 关联 EF/AF/LLQ 类 型 队列 。 

执行 命令 queue wfq [ queue-number total-queue-number ] 配 置 使 用 WFQ 的 BE 队列 ， 
它 可 允许 用 户 配 置 最 多 的 动态 队列 的 数量 。 

10.5.2.2 ”CBQ 实现 

1. 用 户 定义 类 

Traffic-classifier 

。 ”可 以 为 用 户 定义 的 类 定义 相应 的 流行 为 ,其 内 容 可 以 是 AF、EF、LLQ、BE ( 定 
义 给 default-class); 

。 AF 需要 显示 的 定义 带宽 ， 这 个 带宽 是 最 小 保证 带宽 ， 也 是 当 拥 塞 发 生 时 最 小 
的 可 用 带宽 ; 

。 BE 使 用 WFQ 队列 机 制 ， 不 需要 显示 定义 带宽 ， 可 使 用 BW=Minimum{10%， 
100-EF-LLQ-AF}，BW 取 值 至 少 为 接口 带宽 的 1%。 

Default-class 类 

Default-class 可 以 关联 的 流行 为 是 BE〔〈 推 荐 ) 或 AF 队列 。 当 缺 省 类 default-class 

与 BE 队列 关联 使 用 时 ， 如 果 AF 队列 以 百分比 方式 配置 ， 可 确保 的 最 小 带宽 : 

。 ”系统 默认 为 BE 队列 分 配 的 带宽 为 接口 可 用 带宽 的 10%; 

。 AF 队列 和 EF 队列 带宽 之 和 不 得 超过 接口 可 用 带宽 的 99%; 

。 当 AF 队列 和 EF 队列 带宽 之 和 占 接口 可 用 带宽 的 比 列 小 于 90% 时 ， 系 统 默认 
为 BE 队列 分 配 的 带宽 为 接口 可 用 带宽 的 10%; 

。 当 AF 队列 和 EF 队列 带宽 之 和 占 接口 可 用 带宽 的 比例 大 于 90% 时 《如 A%)， 
系统 默认 为 BE 队列 分 配 的 带宽 为 100%-A%; 

。 AF 队列 和 BE 队列 按照 权 值 分 享 剩余 带宽 (可 用 带宽 减 去 EF 队列 占用 带宽 后 
的 剩余 资源 ); 

。 ”如 果 AF 队列 以 带宽 值 方 式 配 置 可 确保 的 最 小 带宽 , 则 AF 队列 和 BE 队列 固定 
按照 9:1 的 比例 分 享 剩余 带宽 (剩余 带宽 即 可 用 带宽 减 去 EF 队列 占用 带宽 后 的 
剩余 资源 )。 

例 ，traffic policy 配置 ， 
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traffic classifier cl operator or 
if-match dscp ef 
traffic classifier ¢2 operator or 
if-match dscp cs4 
traffic classifier c3 operator or 
if-match dscp af21 
traffic classifier c4 operator or 
if-match dscp csl 
# 
traffic behavior bl 
queue af bandwidth pct 30 
# 定 义 af 队列 及 其 最 小 保证 带宽 
# 
traffic behavior b2 
queue af bandwidth pct 20 
queue-length packets 100 
traffic behavior b3 
queue llq bandwidth pct 60 
# 定 义 llq 队列 及 其 最 大 带宽 
# 
traffic behavior b4 
queue wfgq number 64 


traffic policy pl 
classifier cl behavior bl 
classifier c2 behavior b2 
classifier c3 behavior b3 
classifier default-class behavior b4 
3 
interface Mp-group0/0/0 
traffic-policy pl outbound 


2.， 队列 技术 对 比 

华为 设备 的 队列 机 制 目 前 分 为 PQ，RR 及 FQ。 

。 RR 可 分 为 WRR 及 DRR:; 

。 FQ 可 分 为 WFQ (Flow-based WFQ) 和 CBWFQ (Class-based WFQ); 

。 ”PQ 可 分 为 有 上 限 阀 值 的 PQ， 也 可 以 是 无 上 限 阀 值 的 PQ， 或 多 个 类 共用 同 个 

PQ， 亦 或 每 个 类 一 个 PQ。 

说 明 : 

1) PQ 因 其 优先 使 用 带宽 而 限制 其 过 量 使 用 带宽 ， 所 以 往往 为 PQ 队列 设置 可 使 用 带 
宽 的 阀 值 上 限 ， 

2) WRR 和 DRR 都 按 权 值 来 分 配 带宽 ， 权 值 决定 了 带宽 比例 ， 但 WRR 无 法 保证 服务 精 
确 ， 会 因 包 大 小 不 同 而 多 服务 ， 而 DRR 可 以 精确 地 提供 服务 所 需 带 宽 ， 保 证 带宽 总 量 。 


表 10-4 CBQ 与 Queue-Profile 的 区 别 
CBQ 2 


使 用 traffic-classifier， 结 构 化 的 策 | 自动 靠 内 部 优先 级 分 类 ; 仅 8 个 或 4 个 
略 定 义 ， 队 列 数量 可 多 个 队列 


可 定义 EF 或 LLQ 队列 可 以 定义 多 个 PQ 队列 











系统 分 类 方法 
对 低 延 迟 业 务 
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HE | Queue-Profile | 
对 普通 数据 业务 可 定义 AF 或 BE* 队列 可 定义 WFQ/DRR/WRR 


PQ 队列 的 缺点 通过 限制 优先 级 队列 使 用 带宽 ， 避 | 未 对 PQ 队列 限制 带宽 ， 可 能 存在 “ 饥 


免 “ 饥 饿 ”问题 饿 ”问题 
通过 MQC 命令 可 在 同一 个 类 动作 | 通过 Queue-Profile 可 定义 丢弃 策略 及 
和 其 他 技术 的 关系 | 中 定义 所 有 其 他 技术 GTS 
应 用 场景 希望 统一 各 种 QoS 工具 的 场合 , 如 | 简单 地 实现 队列 场景 或 需要 和 接口 GTS 
同时 定义 监管 、remark 等 整形 共存 的 场合 
配置 实现 强大 ， 配 置 稍 复杂 简单 ， 功 能 有 限 


* BE 队列 能 否 在 非 系 统 默认 的 类 下 使 用 依 系 统 而 定 。 


10.6 ”拥塞 避免 ( Congestion Avoidance ) 


拥塞 避免 是 指 通过 监视 网 络 资源 《如 队列 或 内 存 缓冲 区 ) 的 使 用 情况 ， 当 拥塞 发 生 
时 ， 队 列 在 有 拥塞 加 剧 的 趋势 时 主动 采取 丢弃 报 文 以 缓解 网 络 过 载 的 一 种 流 控 机 制 。 实 
际 中 , 在 企业 网 络 边缘 设备 的 WAN 侧 或 网 络 的 上 联 链 路 侧 ， 往往 都 是 拥塞 发 生 的 位 置 ， 
这 些 位 置 可 使 用 队列 技术 以 保证 在 拥塞 发 生 时 每 种 业务 或 应 用 能 够 得 到 应 有 的 带宽 。 但 
拥塞 加 剧 时 ， 由 于 队列 满 而 丢 包 会 导致 更 多 的 报 文 重 传 或 “TCP 全 局 同步 ”。 而 RED 机 
制 是 一 种 有 效 的 拥塞 避免 机 制 ， 可 缓解 这 种 “负面 效应 ”。 


10.6.1 ”拥塞 避免 一 一 丢弃 策略 


拥塞 避免 是 在 软件 队列 尾部 提供 的 一 种 降低 拥塞 “强度 ”的 解决 方案 ， 常 用 的 两 种 
做 法 都 是 靠 在 队列 尾部 丢掉 报 文 来 实现 的 “流量 控制 ” 一 种 做 法 是 直接 在 队列 尾部 丢弃 
报 文 〈 默 认 行为 )， 而 另外 一 种 是 基于 权 值 的 RED 机 制 。 
1， 传统 的 尾部 丢 包 策 略 
传统 的 丢 包 策略 采用 尾部 丢弃 (Tail-Drop〉 的 方法 ， 这 也 是 大 多 数 队 列 在 尾部 默认 
使 用 的 丢 包 策略 。 当 拥塞 发 生 且 队列 的 长 度 达 到 最 大 值 时 ， 所 有 新 入 队列 的 报 文 (缓存 
在 队列 尾部 ) 都 将 因 没 有 存储 空间 而 被 丢弃 。 
但 这 种 尾 丢 弃 有 很 多 缺点 。 
。 不 加 区 分 地 丢 包 ， 人 敏感 的 和 重要 的 报 文 也 会 被 丢弃 。 
。 会 引发 TCP 全 局 同步 现象 。 所 谓 TCP 全 局 同步 现象 就 是 多 个 TCP 主机 在 队列 
中 因 同 时 丢弃 各 自 TCP 连接 的 报 文 ， 而 造成 多 个 TCP 连接 同时 进入 慢 启 动 状 
态 而 导致 流量 降低 ， 之 后 又 会 在 某 个 时 间 同 时 出 现 流 量 高 峰 ， 如 此 反复 ， 使 网 
络 流量 起 伏 波动 。 
。 ”软件 队列 中 由 于 TCP 流量 调控 而 致 TCP 报 文 数量 减少 ,， 若 队列 中 也 有 UDP 报 
文 进入 ， 则 由 于 UDP 报 文 数 量 不 受 丢 包 机 制 影响 ， 继 续 以 恒定 速率 进入 队列 ， 
故 会 占 掉 过 多 的 空间 ， 致 TCP 因 无 空间 存储 而 出 现 “TCP 饥饿 ”。 
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2. WRED (Weight Random Early Detection ) 
为 解决 上 述 问题 而 引入 了 RED 技术 ，RED“ 提 早 ” 并 “随机 地 ”丢弃 一 些 低级 别 

的 数据 报 文 。 这 种 不 同时 丢 包 行为 可 使 多 个 TCP 连接 〈 因 流 控 机 制 ) 不 会 同时 降低 发 送 

速度 ， 这 避免 了 TCP 的 全 局 同步 现象 ， 并 使 TCP 流量 都 趋 于 平缓 稳定 ， 同 时 ， 也 实现 

了 有 区 别 的 丢弃 报 文 。 
图 10-16 中 ， 横 坐标 为 平均 队列 的 深度 平均 队列 并 不 是 实际 队列 ， 它 是 根据 实际 

队列 的 大 小 计算 出 来 的 ， 使 用 平均 队列 的 原因 是 它 较真 实 、 队 列 变化 平缓 ， 便 于 策略 的 

应 用 )。 


丢弃 概率 


L000 = mth 








20 40 平均 队列 长 度 
(丢弃 下 限 ) (丢弃 上 限 ) 


10-16 RED 曲线 示意 图 


图 中 最 低 阀 值 以 内 ， 不 丢 相 应 报 文 ; 在 最 大 阀 值 以 外 ， 丢 掉 所 有 相应 报 文 ; 在 二 者 
之 间 , 随 机 丢掉 报 文 。 启 用 了 RED 的 队列 可 在 最 小 和 最 大 阀 值 间 选 择 性 丢弃 不 重要 的 包 。 

实际 中 现象 ， 报 文 依次 进入 队列 ， 当 队列 的 深度 到 达 最 小 阀 值 时 ， 开 始 丢 包 ， 随 着 
队列 深度 的 增加 ， 丢 包 率 不 断 增加 。 丢 包 是 按 线性 比例 来 丢 包 的 ， 最 高 丢 包 率 不 超过 设 
置 的 丢 包 率 ， 直 至 到 达 最 高 阀 值 (maximum-threshold)， 报 文 全 部 丢弃 。 

对 当前 队列 启用 RED 机 制 后 ， 如 果 队 列 中 含 大 量 TCP 连接 ,其 RED 启用 前 后 流量 
变化 的 差异 。RED 启用 前 后 对 比如 图 10-17 所 示 。 





RED 启用 后 TCP 流量 





FlowA 一 一 一 Flow B FlowC 
图 10-17 RED 启用 前 后 对 比 
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基于 RED 技术 , 设备 实现 了 WRED。 队 列 支 持 基 于 DSCP 或 卫 优先 级 进行 WRED 
丢弃 。 可 使 丢 包 行为 和 权 值 相关 ， 可 为 每 个 队列 定义 基于 DSCP 或 IP 优先 级 的 RED 于 
弃 行为 。WRED 中 权 值 是 IPP 或 DSCP， 可 针对 每 一 种 优先 级 独立 设置 丢弃 报 文 的 上 下 
门限 及 丢 包 率 ， 即 每 个 权 值 都 定义 一 个 独立 的 丢弃 曲线 。 但 华为 默认 所 有 权 值 对 应 的 曲 
线 的 形状 都 一 样 。 这 样 丢 包 行 为 将 变 为 当 系 统 中 相应 权 值 的 报 文 达到 指定 阀 值 后 ， 开 始 
丢弃 该 阀 值 的 报 文 ， 只 要 其 他 权 值 的 报 文 的 丢弃 阀 值 没有 达到 ， 就 不 丢 包 。 
实现 WRED 时 要 注意 以 下 要 点 。 
。 ”这 种 提早 主动 丢弃 队列 中 报 文 的 行为 一 定 程度 上 能 减缓 拥塞 带 来 的 问题 ， 但 不 
能 从 根本 上 避免 拥塞 。 
。 ”华为 使 用 的 WRED 权 值 曲线 中 , 不 同 的 权 值 或 权 值 类 型 , 其 曲线 形状 是 一 致 的 。 
。 拥塞 避免 : 在 企业 和 运营 商 环 境 中 易 发 生 拥 塞 的 地 方 都 可 以 使 用 ， 交 换 机 或 路 
由 器 在 数据 包 进 入 网 络 时 打上 相应 的 标记 后 ， 拥 塞 避免 可 以 使 用 这 些 标记 去 定 
义 丢 包 策略 。 
。 ”最 小 阀 值 不 应 过 低 ， 以 减少 不 必要 的 丢 包 ， 最 大 和 最 小 阀 值 之 间 的 差额 不 宜 过 
小 ， 使 之 接近 为 丢弃 的 效果 。 
。 ”队列 技术 有 2 种 ，WRED 也 有 2 种 配置 方式 。 一 种 是 基于 队列 queue-profile 的 
WRED， 男 一 种 是 CBQ 下 的 WRED。 


10.6.2 ”配置 基于 队列 的 WRED 


定义 每 个 权 值 的 丢弃 曲线 ， 在 华为 的 设备 上 是 通过 定义 丢弃 模板 (drop-profile) 来 
实现 的 。 它 是 队列 各 优先 级 WRED 参数 的 集合 , 将 定义 好 的 丢弃 模板 在 队列 模板 中 关联 
后 ， 应 用 到 接口 上 ， 当 该 接口 拥塞 时 ， 接 口上 绑 定 的 丢弃 模板 实现 拥塞 避免 。 

华为 设备 文 持 基于 DSCP 优先 级 的 WRED 和 基于 IP 优先 级 的 WRED。 

e 了 优先 级 分 为 0 一 7， 共 8 个 等 级 。 

。 DSCP 优先 级 分 为 0 一 63， 共 64 个 等 级 。 

DSCP 的 8 个 等 级 对 应 IP 优先 级 的 同一 个 等 级 ， 如 DSCP 优先 级 0 一 7 对 应 IP 优先 
级 0，DSCP 优先 级 8 一 15 对 应 IP 优先 级 1， 依 此 类 推 。 

可 见 , 基于 DSCP 优先 级 配置 WRED 参数 可 以 对 流量 做 到 更 为 精细 的 划分 , 用 户 可 
以 根据 业务 需要 选择 合适 的 配置 。 

说 明 : 

设备 仅 支 持 为 WAN 接口 的 队列 模板 中 调度 模式 为 WFQ 的 队列 绑 定 丢弃 模板 。 

示例 : 

公司 企业 网 内 部 有 多 种 业务 ， 含 语音 和 数据 业务 。 分 别 经 G1 和 G0 接口 连接 公司 
的 网 关 路 由 器 ， 由 于 数据 业务 高 带宽 消耗 ，voice 业务 带宽 消耗 不 高 ， 但 要 保证 语音 质 
量 。 如 图 10-18 所 示 。 由 于 入 口 是 千 兆 接 口 ， 而 上 游 出 口 是 串 行 接口 ， 所 以 出 口 拥塞 
严重 。 企 业 希 望 优 先 发 送 语音 报 文 ， 对 于 视频 和 数据 报 文 ， 确 保 优先 级 越 小 ， 获 得 发 
送 的 机 会 和 获得 的 带宽 越 小 ， 且 被 随机 丢弃 的 概率 越 大 ， 以 调整 网 络 流量 ， 降 低 拥塞 
产生 的 影响 。 
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图 10-18 企业 网 络 结构 
配置 过 程 : 
drop-profile data # 数 据 使 用 的 丢弃 模板 
wred dscp 
dscp af31 low-limit 40 high-limit 60 discard-percentage 40 
dscp af32 low-limit 50 high-limit 70 discard-percentage 30 
# 
drop-profile video # 视 频 使 用 的 丢弃 模板 
wred dscp 
dscp af43 low-limit 60 high-limit 80 discard-percentage 20 
# 
qos queue-profile queue-profilel 
queue 3 drop-profile data 。 # 丢 弃 模 板 仅 适 用 于 WFQ 的 WAN 链 路 
queue 4 drop-profile video 
schedule wtqa3to4pq5 
interface Serial0/0/0 
ip address 192.168.4.1 255.255.255.0 
qos queue-profile queue-profilel 
# 


10.6.3 ”配置 MQC 实现 拥塞 避免 


丢弃 模板 是 队列 各 优先 级 WRED 参数 的 集合 。 丢 弃 模板 在 流行 为 〈traffic-behavior) 
中 绑 定 后 , 将 流行 为 和 对 应 的 流 分 类 在 流 策略 下 进行 关联 , 并 将 此 流 策 略 应 用 到 接口 上 ， 
可 以 实现 对 匹配 流 分 类 规则 的 流量 的 拥塞 避免 。 
设备 支持 基于 DSCP 优先 级 的 WRED 和 基于 IP 优先 级 的 WRED。 
因此 基于 DSCP 优先 级 配置 WRED 参数 可 以 做 到 更 为 精细 的 划分 ,用 户 可 以 根据 业 
务 需 要 选择 合适 的 配置 。 
说 明 : 
e。 拥塞 避免 只 能 配置 在 设备 的 WAN 接口 上 ，LAN 接口 不 支持 此 配置 。 
。 ”由 于 丢弃 模板 只 能 应 用 于 AF 队列 和 BE 队列 ， 所 以 配置 基于 流 的 拥塞 避免 前 必 
须 先 配置 MQC 实现 拥塞 管理 。 
场景 描述 同上 ， 改 用 MQC 实现 拥塞 避免 。 
drop-profile data 。” # 为 数据 流量 定义 丢弃 模板 
wred dscp 
dscp af31 low-limit 40 high-limit 60 discard-percentage 40 
dscp af32 low-limit 50 high-limit 70 discard-percentage 30 
# 
drop-profile video # 为 视频 流量 定义 丢弃 模板 
wred dscp 
dscp af43 low-limit 60 high-limit 80 discard-percentage 20 


# 
traffic classifier data 


Ei 744 


| 第 + 章 QoS | 


让 match dscp cs1 
traffic classifer video 
if-match dscp af41 
traffic behavior data 
queue wfq 
drop-profile data 
traffic behavior video 
queue af bandwidth 2000 
drop-profile video 
traffic policy abc 
classifier data behavior data 
classifier video behavior video 


interface Serial 0/0/0 
ip address 192.168.4.1 255.255.255.0 
traffic-policy abc outbound 

# 





10.7 监管、 整形 及 限 速 


流量 监管 TP(Traffic Policing)、\ 流 量 整形 TS(Traffic Shaping) 和 接口 限 速 (Line Rate) 
通过 监督 进入 网 络 的 流量 速率 来 限制 其 对 网 络 资源 的 使 用 ， 要 监督 进入 网 络 的 流量 首先 
需要 对 流量 进行 度量 ， 并 根据 度量 的 结果 实施 调控 策略 。 令 牌 桶 〈Token Bucket) 是 常 
用 的 度量 工具 ， 它 能 够 对 流量 的 “速率 (rate)” 和 “ 突 发 (burst)” 能 力 进 行 限制 。 

令 牌 桶 对 流量 做 度量 的 结果 是 给 报 文 打上 红 、 黄 、 绿 不 同 颜色 的 标记 ，QoS 系统 会 
根据 报 文 的 颜色 再 做 相应 的 处 理 。 


10.7.1 令 牌 桶 技术 


1. 概述 

令 牌 桶 可 以 看 作 一 个 存放 一 定数 量 令 牌 的 容器 ， 系 统 按 设 定 的 速度 向 桶 中 注入 令 牌 ， 
当 注 入 的 令 牌 超出 桶 的 容量 时 ， 即 令 牌 桶 满 时 ,多 出 的 令 牌 将 从 桶 中 洲 出 丢掉 或 溢出 到 另 
外 一 个 桶 中 。 桶 中 令 牌 是 每 隔 一 段 时 间 注 入 的 ， 注 入 的 令 牌 会 随 数据 包 的 发 送 而 减少 甚至 
耗 光 。 令 有 牌 桶 的 用 途 很 多 , 在 使 用 令 牌 桶 对 流量 进行 评估 时 ， 是 以 令 牌 桶 中 的 令 牌 数量 是 否 
满足 报 文 的 转发 为 依据 的 。 每 个 令 牌 对 应 一 个 字 节 数据 , 依据 桶 中 存 有 的 令 牌 数量 可 决定 能 
否 转 发 报 文 ， 能 转发 则 称 为 流量 遵守 或 符合 约定 值 ， 否 则 称 为 流量 超标 或 不 符合 约定 值 。 

依据 令 牌 桶 的 令 牌 注入 方式 及 桶 的 数量 定义 了 3 种 令 牌 桶 模型 : 

。 单 速 单 桶 双色 模型 ; 

e 单 速 双 桶 三 色 模 型 (RFC 2697); 

。 双 速 双 桶 三 色 模 型 (RFC2698 )。 

使 用 以 下 术语 描述 令 牌 桶 。 

(1) 令 牌 桶 模型 中 可 能 有 单 桶 或 双 桶 模型 ， 单 桶 模型 中 使 用 的 桶 称 为 CBS 桶 ， 而 双 
桶 模型 中 使 用 的 桶 分 别称 为 CBS 和 EBS 桶 。 

。 CBS (Committed Bucket Size): 承诺 突 发 尺寸 ， 表示 C 桶 的 容量 ， 即 C 桶 瞬间 

能 够 通过 的 承诺 突 发 流量 。 
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。 EBS (Excess Burst Size): 超额 突 发 尺寸 ， 表 示 E 桶 的 容量 ， 即 E 桶 瞬间 能 够 

通过 的 超出 突 发 流量 。 下 文 为 方便 描述 将 两 个 令 牌 桶 分 别称 为 C (Committed) 
桶 和 E (Excess) 桶 。 

(2) Te 和 Te: 分 别 表 示 C 桶 和 E 桶 中 的 当前 令 牌 数量 ， 单 位 为 个 。 

(3) CIR (Committed Information Rate): 承诺 信息 速率 ,向 C 桶 中 注入 令 牌 的 速率 ， 
同时 也 是 C 桶 允许 传输 或 转发 数据 的 平均 速率 ， 单 位 bit/s。 

(4) 色 (color): 根据 桶 中 当前 令 牌 是 否 满足 数据 转发 需要 而 定义 的 颜色 标识 ， 它 
是 模型 描述 时 对 分 类 的 数据 的 颜色 定义 ， 将 能 从 桶 中 取 走 足 量 令 牌 的 报 文 标记 为 绿色 或 
黄色 ， 而 将 未 能 在 桶 中 获得 足 量 令 牌 的 报 文 ， 标 记 为 红色 。 

2. 令 牌 桶 模型 1: 单 速 单 桶 (两 色 ) 

基于 单 桶 模型 对 流量 进行 评测 ， 根 据 评估 的 结果 为 报 文 打上 绿色 或 红色 。 

桶 中 令 牌 以 承诺 的 恒定 速率 CIR 注入 ， 桶 大 小 固定 ， 当 注入 令 牌 超出 桶 的 容量 后 ， 
多 余 的 令 牌 就 被 丢弃 掉 。 对 于 到 达 的 报 文 ， 图 10-19 中 用 B 表示 报 文 的 大 小 。 

。 若 B 入 Tec， 报 文 被 标记 为 绿色 ， 且 Tc 减少 B。 

。 若 B>Tc， 报 文 被 标记 为 红色 ， 且 Tc 不 减少 B。 

过 程 描述 : 若 桶 中 有 令 牌 ， 数 据 包 转发 会 消耗 桶 中 的 令 牌 ， 若 令 牌 足 量 ， 满 足 报 文 
转发 需要 的 数量 ， 则 报 文 被 标记 为 绿色 ， 并 在 桶 中 取 走 等 量 令 牌 。 若 待 转发 报 文 在 桶 中 
得 不 到 足够 令 牌 则 标记 为 红色 ， 桶 中 令 牌 不 减 。 

例 : 若 当 前 C 桶 中 有 2000 个 令 牌 ， 有 2 份 待 转发 数据 报 文 ， 大 小 分 别 为 1500B 和 
800B。 假 设 此 期 间 没 有 令 牌 注入 ， 当 第 一 份 数 据 报 文 和 C 桶 内 令 牌 进行 比较 时 ， 令 牌 满 
足 ， 则 第 一 份 报 文 转 发 出 去 ， 桶 中 令 牌 剩余 为 500 个 。 而 第 二 份 报 文 需要 800 个 令 牌 ， 
令 牌 桶 中 令 牌 不 够 ， 这 份 报 文 被 标记 为 红色 ， 不 被 转发 出 去 ， 令 牌 桶 中 令 牌 量 不 变化 ， 
单 速 单 桶 的 模型 因 其 仅 以 承诺 速率 CIR 注入 令 牌 到 C 桶 ,所 以 C 桶 中 令 牌 是 承诺 的 令 牌 。 
消耗 C 桶 令 牌 的 数据 报 文 ， 其 转发 速率 不 会 超出 CIR。 流 量 图 如 图 10-20 所 示 。 


Tokens 


噶 CIR 
1 








国 g > 
MOM -一 二 
@o I 
Packets(B) ， YES 1 
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图 10-19 单 速 单 桶 双色 模型 图 10-20 单 速 单 桶 流量 图 
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华为 设备 目前 在 限 速 、 整 形 及 CBQ 的 优先 级 队列 中 都 使 用 到 了 单 速 单 桶 模型 (这 
可 从 相应 配置 命令 中 有 CBS 关键 词 可 看 出 )， 在 QoS 机 制 中 ， 只 要 有 提 到 流量 不 超出 特 
定 速率 ， 则 该 机 制 中 必 内 置 令 牌 桶 的 速率 限制 模型 。 

例 : 定义 流行 为 ,使 其 能 优先 转发 报 文 ( 即 优先 级 队列 ), 最 大 可 占用 带宽 为 200kbit/s， 
突 发 流量 为 5000Byte。 

[Huawei] traffic behavior bl 

[Huawei-behavior-b1] queue ef bandwidth 200 cbs 5000 

#CIR=200kbps，CBS=5000B 

说 明 : 

Queue EF 中 如 果 不 显 示 配 置 CBS 参数 ， 则 CBS 默认 值 为 带宽 的 25 倍 。CBQ 中 的 任何 
优先 级 队列 (EF 或 LLQ) 都 内 置 了 一 个 限 速 器 ， 流 量 若 超出 定义 的 带宽 ， 报 文 就 被 丢弃 ， 
所 以 上 述 示例 中 ,一 定 要 保证 接口 拥塞 时 使 用 该 流行 为 的 流量 对 带宽 的 消耗 不 超过 200k。 


3， 令 牌 桶 模型 2: 单 速 双 桶 (三 色 ) 
单 速 双 桶 采用 RFC2697 的 单 速 三 色 标记 器 srTCM (A Single Rate Three Color Marker) 算 
法 对 流量 进行 评估 , 根据 评估 结果 为 报 文 打 颜色 标记 , 即 绿色 、 黄 色 和 红色 。 如 图 10-21 所 示 。 





| 
1 
Packets(B) ， YES | YES | 
wi a dk) 
国力 力 OOOO 国力 国 
@ OQ 国 
图 GO 图 
Conform Exceed Violate 


图 10-21 单 速 双 桶 三 色 示 意图 


系统 按照 CIR 速率 向 桶 中 投放 令 牌 ， 向 C 桶 注入 令 牌 ， 若 溢出 ， 则 己 桶 令 牌 增加 。 
车 Tec<CBS，Te 增加 ; 

若 Tc=CBS，Te<EBS，Te 增加 ; 

若 Tc=CBS，Te=EBS， 则 都 不 增加 。 

对 于 到 达 的 报 文 ， 用 B 表示 报 文 的 大 小 。 

若 B 科 Te， 报 文 被 标记 为 绿色 ， 且 Te 减少 B; 

若 Te<B 科 Te， 报 文 被 标记 为 黄色 ， 且 Te 减少 B 
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若 Te<B， 报 文 被 标记 为 红色 ， 且 Te 和 Te 都 不 减少 。 

描述 过 程 : 

C 桶 中 令 牌 是 承诺 部 分 ， 系 统 始终 以 速率 CIR 注入 令 牌 ， 但 若 前 一 时 刻 C 桶 中 令 牌 
没有 用 光 或 没有 使 用 〈 因 没有 数据 转发 )， 则 下 次 注入 时 会 致 C 桶 溢出 ， 过 量 的 令 牌 并 
没有 被 丢掉 ,定义 的 EE 桶 就 是 专门 用 来 装 多 余 的 令 牌 的 。 所 以 E 桶 的 大 小 可 在 实现 中 定 
义 得 稍 大 些 ， 可 使 系统 保留 前 面 时 刻 未 用 令 牌 的 能 力 相 对 增强 ， 可 减少 令 牌 因 洲 出 而 致 
的 损失 。 

报 文 转发 时 ， 先 从 承诺 的 C 桶 中 取 令 牌 ， 如 果 令 牌 够 ， 则 标记 报 文 为 绿色 ， 桶 中 令 
牌 减少 。 若 C 桶 中 令 牌 不 够 (Tc<B)， 则 继续 比较 EE 桶 令 牌 。 若 EE 桶 令 牌 够 ， 则 标记 报 
文 为 黄色 ， 否 则 为 红色 。 

例 : 若 C 桶 当前 令 牌 为 2000，E 桶 令 牌 为 1000， 待 转发 数据 报 文 有 3 份 ， 大 小 分 

别 为 1300B、800B、700B, 假设 3 份 报 文 在 转发 过 程 中 没有 令 牌 注入 。 根据 上 面 的 逻辑 ， 
第 一 份 报 文 同 C 桶 比较 ， 令 牌 满 足 ， 标 记 为 绿色 ， 此 时 令 牌 桶 C 剩余 令 牌 为 500， 令 牌 
桶 三 令 牌 依然 为 1000。 第 二 份 报 文 需要 800 个 令 牌 ，C 桶 承诺 部 分 不 够 ， 则 使 用 EE 桶 令 
牌 ，E 桶 部 分 是 累积 起 来 的 令 牌 ， 第 二 份 报 文 使 用 EE 桶 令 牌 ， 并 标记 为 黄色 ，E 桶 剩余 
令 牌 200。 第 三 份 报 文 在 C 桶 和 了 桶 都 没有 足 量 的 令 牌 ， 所 以 标记 为 红色 。 

双 桶 模型 在 华为 的 设备 里 只 有 监管 应 
用 才 使 用 。 

Pl 是 使 用 EE 桶 令 牌 的 流量 ，P3 是 使 
用 C 桶 令 牌 的 流量 。P2 处 没有 转发 的 流量 。 
P1 对 应 黄色 流量 ，P3 对 应 绿色 流量 。 

双 桶 模型 (如 图 10-22 所 示 ) 由 于 EBS 
桶 的 存在 ， 因 此 流量 可 以 在 承诺 的 CIR 速 
率 基础 上 过 量 突 发 ， 在 某 时 刻 速率 可 以 达 





到 很 高 。 由 于 前 一 时 刻 数据 量 低 ， 令 牌 没 了 中 
有 使 用 ， 因 此 在 下 一 时 刻 有 过 量 突 发 所 至 图 10-22 单 速 双 桶 模型 


的 流量 过 高 。 但 虽 有 过 量 突 发 ， 但 流量 的 平均 速率 仍 <=CIR。 

4. 令 牌 桶 模型 3: 双 速 双 桶 (三 色 ) 

双 速 双 桶 采用 RFC2698 的 双 速 三 色 标 记 器 trTCM (A Two Rate Three Color Marker) 
算法 对 流量 进行 测评 ， 根 据 评估 结果 为 报 文 打 颜色 标记 ， 即 绿色 、 黄 色 和 红色 。 

如 图 10-23 所 示 ， 为 方便 描述 ， 将 两 个 令 牌 桶 称 为 P 桶 和 C 桶 ， 用 Tp 和 Tec 表示 桶 
中 的 令 牌 数量 。 双 速 双 桶 有 4 个 参数 。 

PIR (Peak Information Rate): 峰值 信息 速率 ， 表 示 向 P 桶 中 投放 令 牌 的 速率 ， 即 了 
桶 允许 传输 或 转发 报 文 的 峰值 速率 ，PIR 大 于 CIR。 

CIR: 承 详 信息 速率 ， 向 C 桶 中 注入 令 牌 的 速率 ， 即 C 桶 允许 传输 或 转发 报 文 的 平 
均 速 率 。 

PBS (Peak Burst Size): 峰值 突 发 尺寸 ， 表 示 P 桶 的 容量 ， 即 P 桶 瞬间 能 够 通过 的 
峰值 突 发 流量 。 

CBS: 承诺 突 发 尺寸 ， 表 示 C 桶 的 容量 ， 即 C 桶 瞬间 能 够 通过 的 承诺 突 发 流量 。 
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图 10-23” 双 速 双 桶 示意 图 


系统 按照 PIR 速率 向 P 桶 中 投放 令 牌 ， 按 照 CIR 速率 向 C 桶 中 投放 令 牌 ; 

当 Tp<PBS 时 ，P 桶 中 令 牌 数 增 加 ， 和 否则 不 增加 ; 

当 Te<CBS 时 ，C 桶 中 令 牌 数 增加 ， 否 则 不 增加 。 

对 于 到 达 的 报 文 ， 用 B 表示 报 文 的 大 小 : 

若 Tp<B， 报 文 被 标记 为 红色 ; 

车 Te<B 科 Tp， 报 文 被 标记 为 黄色 ， 且 Tp 减少 B; 

若 B 委 Te， 报 文 被 标记 为 绿色 ， 且 Tp 和 Tc 都 减少 B。 

任何 一 种 模型 都 做 到 把 流量 同 令 牌 桶 中 的 令 牌 量 比 对 ， 而 打上 不 同 的 颜色 ， 并 代表 
不 同 的 分 类 。 如 果 按 令 牌 量 是 否 足 量 来 决定 报 文 转发 ， 红 色 代 表 该 类 数据 没有 对 应 的 令 
牌 ， 而 不 能 被 系统 转发 。 黄 色 代 表 有 对 应 的 令 牌 ， 但 该 令 牌 不 是 承诺 的 令 牌 〈 仅 取 自 
桶 )。 绿 色 代 表 该 类 数据 使 用 的 令 牌 是 承诺 速率 所 注入 的 令 牌 。 

双 速 模型 并 没有 像 单 速 模型 在 实际 中 应 用 那么 广 ， 它 一 定 程度 上 解决 了 单 速 双 桶 模 
型 的 不 足 ， 双 速 模型 引入 了 PIR，PIR 一 定 要 大 于 CIR。 

描述 : 

P 桶 和 C 桶 都 是 独立 注入 令 牌 的 ， 如 果 桶 中 令 牌 溢出 ， 并 不 会 装 入 到 另 一 个 桶 里 。 
PIR 是 峰值 速率 ，CIR 是 承诺 速率 ， 此 模型 可 保证 当 输 入 数据 的 速率 超出 PIR 时 ， 超 出 
部 分 将 被 丢弃 ， 而 低 于 PIR 部 分 的 报 文 ， 高 于 CIR 的 部 分 被 标记 为 黄色 ， 低 于 CIR 部 分 
被 标记 为 绿色 。 所 以 待 转 发 的 报 文 先 和 了 桶 比较 ， 若 P 桶 令 牌 不 够 ， 则 标记 为 红色 ， 令 
牌 不 减 。 而 若 P 桶 令 牌 够 ， 则 继续 比较 C 桶 令 牌 ， 仅 当 二 者 令 牌 都 够 时 ， 都 做 等 量 相 减 。 

例 : P 桶 令 牌 为 2000,，C 桶 令 牌 为 1000, 待 转发 报 文 有 3 份 , 大 小 分 别 为 1500B、800B、 
400B， 第 一 份 报 文 和 了 桶 比较 ， 令 牌 够 ， 继 续 和 C 桶 比较 ，C 桶 不 够 。 第 一 份 转发 出 去 ，P 
桶 剩余 令 牌 500，C 桶 令 牌 没 变 化 ， 为 1000 且 报 文 被 标记 为 黄色 。 第 二 份 报 文大 小 为 800， 
先 和 了 P 桶 比较 ， 因 了 桶 令 牌 不 够 而 标记 为 红色 ， 桶 内 令 牌 不 变 。 第 三 份 报 文 先 和 了 桶 比较 ， 
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再 和 C 桶 比较 。 都 满足 则 都 减 令 牌 。 并 标记 为 绿色 ，P 桶 剩余 100，C 桶 剩余 600。 

此 模型 能 解决 单 速 双 桶 模型 中 因 E 桶 的 原因 而 致 的 流量 过 量 突 发 而 引起 的 速率 波动 
幅度 的 不 确定 性 ， 所 以 对 最 高 的 速率 做 了 限制 ， 如 果 该 模型 应 用 在 数据 转发 的 场景 下 ， 
它 使 实际 数据 包 的 转发 速率 达到 PIR， 这 往往 致 企业 边缘 设备 流出 的 报 文 速率 过 高 ， 而 
在 上 游 运 营 商 处 丢掉 超出 CIR 的 部 分 流量 。 S Pl 

Pl1 是 超出 PIR 部 分 的 “红色 ”流量 ，P2 是 CK 
“黄色 ”流量 ， 而 P3 是 “绿色 ”流量 。 使 用 双 速 
模型 《如 图 10-24 所 示 ) 可 使 流量 分 为 3 份 ， 可 ci 
自 定 义 不 同 颜色 的 流量 的 流行 为 ， 可 以 丢弃 或 打 
标记 。 

例如 企业 要 评估 网 络 流量 ， 对 流 经 设备 的 流 
量 做 评估 ， 低 于 2M 带宽 的 流量 标记 为 绿色 ， 而 0 
超出 SM 的 流量 标记 为 红色 ， 介 于 中 间 的 流量 标记 为 黄色 。 这 种 需求 只 有 双 速 模型 才能 
实现 。 双 桶 模型 的 单 速 和 双 速 模型 的 区 别 见 表 10-5 所 示 。 

表 10-5 双 桶 模型 的 单 速 和 双 速 模型 的 区 别 
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CBS 桶 、EBS 桶 、 桶 之 间 相关 ，CBS 溢出 | 、 、。 a 
双 桶 的 令 牌 会 进入 EBS CBS 桶 、PBS 桶 各 自 独立 ， 没 有 关系 


基于 速率 会 自动 生成 , 配置 时 都 大 于 1500B 
CBS 越 大 ， 波 动 性 越 强 


基于 速率 会 自动 生成 , 配置 时 都 大 于 1500B 
CBS 和 PBS 建议 PBS 大 于 CBS 


EBS 越 大 ， 峰 值 突 发 就 越 高 arp 
EBS 越 小 ， 峰 值 突 发 能 力 就 弱 ， 浙 。 


m 双 束 各自 注入 到 各 自 的 祖 


根据 两 个 单 桶 模型 ，P 桶 把 流量 分 成 高 于 
如 果 前 一 时 刻 没 有 数据 ， 下 一 时 刻 速 率 可 | PIR 和 低 于 PIR 部 分 
评估 速率 | 超出 承诺 速率 而 致 突 发 ， 但 平均 速率 不 会 | C 桶 则 在 此 基础 上 继续 把 低 于 PIR 的 速率 


桶 大 小 “| CBS 越 小 ， 波 动 平 组 











高 于 CIR 部 分 流量 根据 C 桶 再 分 成 高 于 CIR 和 低 
于 CIR 部 分 
突 发 能 力 如 果 称 CBS 提供 正常 突 发 , 则 EBS 会 在 某 | 在 CBS 提供 正常 突 发 的 基础 上 ， 可 持续 
所 些 时 刻 提 供 过 量 突 发 提供 过 量 突 发 
三 色 每 个 色 可 自 定义 动作 ， 共 三 个 动作 ， 转 发 、| 每 个 色 可 自 定 义 动作 , 共 三 个 动作 , 转发 、 
丢弃 或 打 标记 后 再 转发 丢弃 或 打 标记 后 再 转发 

本 多 用 在 基于 速率 分 类 上 色 的 场景 下 或 希 

应 用 建议 | 多 用 在 限 速 或 上 色 等 应 用 场景 下 望 以 峰值 速率 转发 的 场景 下 


10.7.2 ”监管 


监管 使 用 双 桶 模型 的 令 牌 桶 来 评估 网 络 流量 ， 监 督 进 入 网 络 的 流量 速率 ， 对 超出 部 
分 的 流量 进行 “惩罚 ”。 而 惩罚 行为 可 以 自 定义 为 丢 包 或 重新 标记 该 报 文 ， 若 动作 为 丢 包 
则 监管 实现 限 速 的 功能 ， 若 重新 标记 ， 则 监管 可 实现 Remark 的 功能 。 
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监管 机 制 保证 进入 网 络 的 流量 都 是 承诺 可 信 的 ， 不 可 信 的 流量 会 惩罚 而 丢弃 或 给 予 
低级 别 标 记 以 区 分 对 待 。 监 管 可 定义 在 网 络 的 任何 位 置 的 进 或 者 出 的 方向 上 ， 但 更 多 的 
是 应 用 到 网 络 的 边界 设备 上 ， 对 进入 网 络 的 流量 标记 为 绿色 、 黄 色 或 红色 。 

1. 流量 监管 由 三 部 分 组 成 

(1) Meter: 通过 令 牌 桶 机 制 对 网 络 流量 进行 度量 ， 向 Marker 输出 度量 结果 。 

(2) Marker: 根据 Meter 的 度量 结果 对 报 文 进行 染色 ， 报 文 会 被 染 成 绿色 、 黄 色 、 
红色 三 种 颜色 。 

(3) Action: 根据 Marker 对 报 文 的 染色 结果 ， 为 报 文 定义 一 些 动作 ， 动 作 包 括 ; 

。 ”pass: 对 度量 结果 为 “符合 ”的 报 文 继续 转发 ; 

e remark +pass: 修改 报 文 内 部 优先 级 后 再 转发 ; 

。 discard: 对 度量 结果 为 “不 符合 ”的 报 文 进行 丢弃 。 

默认 情况 下 ， 若 不 为 监管 定义 动作 ， 则 染 上 相应 颜色 的 报 文 的 默认 动作 是 对 green 
报 文 、yellow 报 文 进行 转发 ，red 报 文 被 丢弃 。 

监管 的 命令 是 QoS CAR (Committed Access Rate)。 目 前 华为 实现 中 ,可 以 定义 基于 
接口 的 CAR 和 基于 类 的 CAR， 区 别 在 于 是 对 接口 的 流量 做 监管 ， 还 是 对 符合 类 规则 的 
流量 做 监管 。 

2.， 监管 的 配置 实现 

场景 1， 基 于 接口 的 监管 

图 10-25 中 ， 企 业 业务 数据 有 语音 、 视 频 及 数据 ， 分 别 有 各 自 的 业务 要 求 。 要 求 在 
路 由 器 A 上 通过 监管 实现 流量 控制 ， 其 中 语音 限制 在 256kbit/s， 视 频 限制 在 4000kbit/s， 
数据 限制 在 2000kbit/s。 其 中 , 对 视频 流 要 求 做 到 对 其 每 个 流 都 实现 监管 控制 ,并 且 对 数 
据 速 率 在 1000kbits 范围 内 的 流量 打上 AF21 标记, 而 高 于 1000kbit/s 部 分 则 标记 为 AF23。 
语音 流 源 自 192.168.10.1 ~ 192.168.10.100 地 址 范围 。 数 据 流 源 自 192.168.20.1~ 
192.168.20.100， 视 频 流 源 自 192.168.30.1 一 192.168.30.100 地 址 范围 。 









RouterA RouterB 


图 10-25 企业 业务 数据 


实现 : 

[RouterA] interface ethernet 2/0/0 

[RouterA-Ethernet2/0/0] qos car inbound source-ip-address range 192.168.10.1 to 192.168.10.100 cir 256 

[RouterA-Ethernet2/0/0] qos car inbound source-ip-address range 192.168.20.1 to 192.168.20.100 per-address cir 4000 

[RouterA-Ethernet2/0/0] qos car inbound source-ip-address range 192.168.30.1 to 192.168.30.100 cir 1000 pir 2000 green 
pass remark-dscp af21 yellow pass remark-dscp af23 red discard 

[RouterA-Ethernet2/0/0] quit 
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场景 2: 基于 类 的 监管 

图 10-25 中 ， 企 业 业务 数据 有 语音 、 视 频 及 数据 ， 分 别 有 各 自 的 业务 要 求 ， 要 求 在 
路 由 器 A 上 通过 监管 实现 流量 控制 。 其 中 , 语音 限制 在 256kbit/s, 视频 限制 在 4000kbit/s， 
数据 限制 在 2000kbit/s。 其 中 对 视频 流 要 求 做 到 对 其 每 个 流 都 实现 监管 控制 , 并 且 对 数据 
速率 在 1000kbit/s 范围 内 的 流量 打上 AF21 标记 , 而 高 于 1000kbit/s 部 分 则 标记 为 AF23。 

实现 : 

# 在 RouterA 上 定义 用 户 类 cl、c2 及 c3， 分 别 对 应 图 中 的 vlan10、vlan20 及 vlan30 

[RouterA] traffic classifier cl 

[RouterA-classifier-cl] if-match vlan-id 10 

[RouterA-classifier-c1] quit 

[RouterA] traffic classifier c2 

[RouterA-classifier-c2] if-match vlan-id 20 

[RouterA-classifier-c2] quit 

[RouterA] traffic classifier c3 

[RouterA-classifier-c3] if-match vlan-id 30 

[RouterA-classifier-c3] quit 


# 在 RouterA 上 创建 流行 为 bl 一 b3， 对 进入 企业 的 不 同业 务 流 进行 流量 监管 

[RouterA] traffic behavior bl 

[RouterA-behavior-b1l] car cir 256 cbs 48128 pbs 80128 

[RouterA-behavior-b1] statistic enable 

[RouterA-behavior-b1] quit | 

# 没 有 定义 car 的 颜色 行为 ， 则 缺 省 情况 下 ， 绿 色 、 黄 色 报 文 被 允许 通过 ， 红 色 报 文 被 丢弃 
[RouterA] traffic behavior b2 

[RouterA-behavior-b2] car cir 1000 pir 4000 green pass yellow pass remark-dscp af21 red pass remark-dscp af23 
[RouterA-behavior-b2] statistic enable Re 
[RouterA-behavior-b2] quit 

[RouterA] traffic behavior b3 

[RouterA-behavior-b3] car cir 2000 cbs 376000 pbs 626000 

[RouterA-behavior-b3] statistic enable 

[RouterA-behavior-b3] quit 

# 

[RouterA] traffic policy pl 

[RouterA-trafficpolicy-p1] classifier cl behavior bl 

[RouterA-trafficpolicy-p1l] classifier c2 behavior b2 

[RouterA-trafficpolicy-p1] classifier c3 behavior b3 

[RouterA-trafficpolicy-pl1] quit 

[RouterA] interface ethernet 2/0/0 

[RouterA-Ethernet2/0/0] traffic-policy pl inbound 

# 流 量 监管 的 动作 包括 通过 、 丢 弃 和 改变 优先 级 转发 

# 流 量 监管 也 可 以 应 用 在 出 方向 上 


说 明 

基于 接口 和 基于 类 的 监管 的 区 别 是 MQC 结构 性 强 、 易 于 扩展 ， 而 基于 接口 的 CAR 则 
实现 容易 ， 配 置 简单 。 如 果 仅 为 了 实现 监管 机 制 ， 则 在 接口 上 调用 CAR 更 容易 实现 。 若 
同时 在 设备 上 配置 其 他 QoS 机 制 ， 如 队列 等 ， 则 MQC 较 易 。 


3. 混合 基于 接口 和 基于 类 的 监管 
图 10-26 中 ， 企 业 在 边界 网 关 A 上 对 下 载 的 数据 流量 做 带宽 限制 ， 使 其 不 高 于 
10Mbit/s， 并 给 这 部 分 流量 AF21 标记 ; 在 流入 的 10Mbits 流量 中 ， 如 果 发 现 有 语音 类 型 
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的 流量 ， 则 要 限制 其 流量 不 使 用 超过 2Mbit/s 的 带宽 。 同 理 ， 若 有 视频 流量 ， 则 限制 其 
速率 不 超过 4Mbit/s， 除 此 以 外 ， 其 他 流量 中 超过 4Mbit/s 的 部 分 标记 为 Default。 






RouterA RouterB 








数据 六 
10-26 边界 网 关上 配置 多 种 监管 机 制 


# 类 C1 代表 语音 流量 ， 类 C2 代表 视频 流量 ， 此 处 省 略 类 CI 和 C2 的 定义 

[RouterAjtraffic behavior bl 

[RouterA-behavior-bl]car cir 2000 cbs 376000 pbs 626000 

[RouterA-behavior-bl |statistic enable 

[RouterA-behavior-bl]quit 

[RouterA Jtraffic behavior b2 

[RouterA-behavior-b2]car cir 4000 cbs 752000 pbs 1252000 

[RouterA-behavior-b2]statistic enable 

[RouterA-behavior-b2]quit 

[RouterAJtraffic behavior b3 

[RouterA-behavior-b3]car cir 4000 cbs 752000 pbs 1252000 green pass yellow pass red pass remark-dscp Default 

[RouterA-behavior-b3]statistic enable 

[RouterA-behavior-b3]quit 

并 

[RouterA ltraffic policy pl 

[RouterA-trafficpolicy-pl]classifier cl behavior bl 

[RouterA-trafficpolicy-pl]classifier c2 behavior b2 

[RouterA -trafficpolicy-pl]classifier class-default behavior b3 

# 

[RouterA Jinterface Ethernet3/0/0 

[RouterA-Ethernet3/0/0] qos car inbound cir 10000 

[RouterA-Ethernet3/0/0] traffic-policy pl inbound 

# 

# 基 于 接口 的 CAR 限制 总 流量 带宽 ， 而 traffic-policy 则 在 此 基础 之 上 做 了 颗粒 度 更 细 化 的 限制 

#class-default 可 以 匹配 所 有 其 他 流量 

练习 1: 

企业 边缘 设备 从 上 游 运营 商 收 到 访问 的 数据 流量 ， 实 现 差分 服务 ， 企 业 管 理 员 根据 
速率 划分 流量 ， 高 于 SMbits 的 流量 打上 QoS 标记 AF11， 低 于 2Mbit/s 的 流量 打上 QoS 
标记 AF31， 而 处 于 2Mbit/s 和 5SMbits 之 间 的 流量 则 标记 为 AF21。 

分 析 思 路 : 设备 对 收 到 的 流量 划分 3 个 等 级 ， 低 于 2Mbits、 高 于 5Mbit/s 及 二 者 之 
间 ， 分 别 对 其 打 标记 。 我 们 要 选择 的 是 基于 速率 打 标记 的 QoS 机 制 ， 这 可 通过 使 用 监管 
的 双 速 模型 来 实现 。 
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配置: 

<huawei>system-view 

Enter system view, return user view with Ctrl+Z. 

[huaweilint s1/0/0 

[huawei-Seriall/0/0]qos car inbound cir 2000 pir 5000 green pass remark-dscp af31 yellow pass remark-dscp af21 red pass 
remark-dscp afll 

[huawei-Seriall/0/0]quit 


说 明 : 
双 桶 模型 要 配置 cir 和 pir。 


练习 2: 

企业 经 常 遭 受 DoS 攻击 ， 尤 其 是 ICMP 的 泛 洪 攻 击 ， 为 保护 企业 内 部 网 络 ， 采 用 必 
要 的 措施 来 实现 。 限 制 ICMP 流量 不 要 超出 100kbit/s。 

分 析 思 路 : 

任何 企业 都 不 可 避免 受到 flooding 攻击 ， 过 量 的 泛 洪 对 内 网 造成 过 大 负担 或 消耗 过 
多 资源 ， 所 以 在 设备 的 入 口 做 限 速 ， 超 出 部 分 可 以 丢弃 掉 。 限 速 到 100kbits， 仅 保证 流 
量 平均 速率 不 超出 100kbit/s， 命 令 中 的 CIR 也 是 指令 牌 以 恒定 100kbit/s 速率 注入 C 桶 ， 
但 数据 流量 并 不 一 定 是 持续 流动 的 ， 它 可 能 在 某 时 刻 少 来 些 ， 某 时 刻 多 来 些 。 流 量 是 波 
动 的 , 必然 有 超出 平均 速率 的 部 分 , 而 低 于 平均 速率 100kbit/s 的 流量 则 是 承诺 转发 部 分 ， 
超出 部 分 则 是 由 于 多 使 用 了 EBS 桶 的 令 牌 ,所 以 属于 不 承诺 的 过 量 突 发 部 分 ， 此 部 分 往 
往 给 予 更 低 的 QoS 标记 。 

<huawei>system-view 

Enter System view, return user view with Ctri+Z. 

[huaweilacl 3001 


[huawei-acl-adv-3001]rule permit icmp source any destination any 
[huawei-acl-adv-3001]quit 


[huaweiltraffic classifier icmp 
[huawei-classifier-icmp]if-match acl 3001 
[huawei-classifier-icmp]quit 
[huaweiltraffic behavior bl 
[huawei-behavior-b1]car cir 100 green pass yellow pass red discard 
[huawei-behavior-bl]quit 
[huawei]traffic policy pl 
[huawei-trafficpolicy-pljclassifier icmp behavior bl 
[huawei-trafficpolicy-p1]quit 
[huaweilint s1/0/0 
[huawei-Seriall/0/0Jtraffic-policy pl inbound 
[huawei-Serial1/0/0]quit 
# 
[huaweijdisplay traffic policy user-defined pl classifier icmp 
User Defined Traffic Policy Information: 
Classifier: icmp 
Operator; OR 
Behavior: bl 
Committed Access Rate: 

CIR 100 (Kbps), PIR 0 (Kbps), CBS 18800 (byte), PBS 31300 (byte) 

Color Mode: color Blind 

Conform Action: pass 
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Yellow Action: pass 
Exceed Action: discard 
练习 3: 
运营 商 分 配 带 宽 给 企业 用 户 ， 使 用 El 线路 互联 。 在 运营 商 侧 限 制 用 户 带 宽 为 上 行 
和 下 行 分 别 是 256kbit/s。 同 时 ， 设 置 burst， 使 过 量 突 发 能 力 可 保证 接口 以 El 速率 持续 
转发 30s 的 流量 。 
分 析 思 路 : 
限 速 可 以 在 设备 接口 的 入 和 出 两 个 方向 同时 配置 ， 对 进 /出 的 流量 进行 限制 。 接 口 速 
率 是 2Mbit/s，burst 能 力 是 指 在 令 牌 桶 没有 注入 令 牌 的 情况 下 ，EBS 桶 能 保证 流量 持续 转 
发 的 能 力 为 7680000 (30x2048000/8)， 即 接口 按 线 速 消耗 令 牌 (接口 的 时 钟 转发 能 力 是 
2Mbit/s)， 而 系统 仅 按 256kbit/s 注入 令 牌 。 要 能 使 接口 30s 间 持 续 以 El 速率 转发 数据 ， 
则 EBS 桶 里 要 装 7680000 个 令 牌 , 需要 接口 “安静 ”4 分 钟 ， 使 令 牌 以 256k 注 入 EBS 桶 。 
interface Seriall/0/0 
link-protocol ppp 
qos car inbound cir 256 cbs 2000 pbs 7680000 green pass yellow pass red discard 
qos car outbound cir 256 cbs 2000 pbs 7680000 green pass yellow pass red discard 


说 明 
CBS 大 小 至 少 为 1500， 此 处 的 关键 词 PBS 即 是 EBS 桶 大 小 ， 大 小 是 E1 速率 转发 30s 
所 需 的 令 牌 量 。 


10.7.3 ”流量 整形 


1. 流量 整形 

流量 整形 是 一 种 主动 调整 流量 输出 速率 的 措施 ， 其 作用 是 限制 流量 与 突 发 ， 使 这 类 
报 文 以 比较 均匀 的 速率 向 外 发 送 。 流 量 整 形 通常 使 用 缓冲 区 和 令 牌 桶 来 完成 ， 当 报 文 的 
发 送 速度 过 快 时 ， 首 先 在 缓冲 区 进行 缓存 ， 在 令 牌 桶 的 控制 下 ， 再 均匀 地 发 送 这 些 被 组 
冲 的 报 文 ， 经 过 控制 的 报 文 在 流出 时 形状 更 趋 于 平滑 。 

整形 多 应 用 于 当 远 端 设备 的 接口 速率 小 于 本 地 设备 的 出 口 速 率 或 本 地 发 生 流 量 突 
发 时 ， 为 避免 在 远 端 设备 接口 处 可 能 出 现 的 流量 拥塞 的 情况 ， 用 户 可 以 通过 在 本 地 设备 
出 口 方向 配置 流量 整形 ， 将 流出 的 流量 修整 得 比较 平滑 ， 把 流量 进行 削 峰 填 谷 ， 即 输出 
平整 的 流量 ， 又 解决 远 端的 拥塞 问题 。 

在 实际 中 ， 整 形 因 其 要 缓存 报 文 ， 而 对 设备 的 内 存 要 求 较 高 ， 故 更 多 应 用 在 保护 出 
口 流量 ,避免 在 远 端 ( 上 游 ) 拥塞 点 丢 包 的 场合 。 如 上 游 运行 商 为 下 游 企业 客 户 分 配 2M 
专线 时 使 用 光纤 以 太 网 接 入 ， 此 种 场景 下 ， 本 地 使 用 限 速 则 会 丢弃 客户 自己 的 流量 ， 而 
整形 则 会 保护 客户 的 流量 涌 出 过 多 给 上 游 而 致 的 丢 包 。 

2. 整形 工作 过 程 

流量 整形 是 一 种 应 用 于 接口 、 子 接口 或 队列 的 流量 控制 技术 ， 可 以 对 从 接口 上 流出 
的 所 有 报 文 或 某 类 报 文 进行 速率 的 限制 。 

下 面 以 接口 或 子 接口 下 采用 单 速 单 桶 技术 的 基于 流 的 队列 整形 为 例 ， 介 绍 流量 整形 
的 处 理 流程 ， 其 处 理 流程 如 图 10-27 所 示 。 
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图 10-27 流量 整形 处 理 流程 图 
具体 处 理 流程 如 下 。 


(1)》 当 报 文 到 来 的 时 候 ， 首 先 对 报 文 进行 分 类 ， 使 报 文 进入 不 同 的 队列 。 

(2) 若 报 文 进 入 的 队列 没有 配置 队列 整形 功能 ， 则 直接 发 送 该 队列 的 报 文 ， 否则 ， 

进入 下 一 步 处 理 。 
(3) 按 用 户 设 定 的 队列 整形 速率 向 令 牌 桶 中 放置 令 牌 。 
。 ”如 果 令 有 牌 桶 中 有 足够 的 令 牌 可 以 用 来 发 送 报 文 ， 则 报 文 直接 被 发 送 ， 在 报 文 被 
发 送 的 同时 ， 令 牌 做 相应 的 减少 。 
。 如果 令 牌 桶 中 没有 足够 的 令 牌 ， 则 将 报 文 放 入 缓存 队列 ， 如 果 报 文 放 入 缓存 队 
列 时 ， 缓 存 队列 已 满 ， 则 丢弃 报 文 。 
。 ”缓存 队列 中 有 报 文 的 时 候 , 系统 按 一 定 的 周期 从 缓存 队列 中 取出 报 文 进行 发 送 ， 
每 次 发 送 都 会 与 令 牌 桶 中 的 令 牌 数 作 比较 ， 直 到 令 牌 桶 中 的 令 牌 数 减少 到 缓存 
队列 中 的 报 文 不 能 再 发 送 ， 或 缓存 队列 中 的 报 文 全 部 发 送 完毕 为 止 。 
(4) 队列 整形 后 ， 如 果 该 接口 和 子 接口 同时 配置 了 接口 整形 ， 则 系统 还 要 逐 级 按照 
子 接口 整形 速率 、 接 口 整 形 速率 对 报 文 流 进行 速率 控制 。 其 处 理 流 程 与 队列 整形 相似 ， 
但 不 需要 (1) 和 (2)。 

3. 整形 的 分 类 

依据 实现 方式 可 分 为 基于 接口 的 流量 管 整形 、 基 于 接口 的 自 适 应 流量 整形 、 基 于 队 
列 的 流量 整形 、 基 于 MQC 的 流量 整形 、 基 于 MQC 的 自 适 应 流量 整形 。 

以 下 逐一 对 各 种 整形 加 以 说 明 。 

第 一 种 ， 基 于 接口 的 流量 整形 。 

若 需 要 对 接口 出 方向 所 有 流量 进行 控制 时 ， 可 在 接口 下 直接 配置 流量 整形 。 当 报 文 

的 发 送 速 率 超过 限制 速率 时 ， 超 出 的 那 部 分 报 文 先进 入 缓存 队列 ; 当 令 牌 桶 有 足够 的 令 
牌 时 ， 再 均匀 地 向 外 发 送 这 些 被 缓存 的 报 文 ， 当 缓存 队列 已 满 时 ， 报 文 将 被 丢弃 。 
在 接口 和 /或 子 接口 下 , 执行 命令 qos gts cir cir-value [ cbs cbs-value ], 配置 接口 整形 。 
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cir 是 整形 所 需 限 制 到 的 速率 。cbs 是 整形 模型 中 使 用 的 令 牌 桶 的 大 小 , cbs 不 是 越 大 
越 好 ， 越 大 则 流量 波动 就 越 大 : 反之， 流量 波动 就 较 小 ， 但 cbs 一 定 要 大 于 1500。 

# 配 置 基于 接口 的 流量 整形 

# 在 RouterA 上 配置 基于 接口 的 流量 整形 ， 将 接口 G1/0/0 速率 限制 在 8000kbit/s 

[RouterA] interface gigabitethernet 1/0/0 

[RouterA-GigabitEthernet3/0/0] qos gts cir 8000 


第 二 种 ， 基 于 队列 的 流量 整形 。 

在 队列 模板 〈qos queue-profile) 中 ， 对 各 队列 的 流量 做 整形 。 接 口 收 到 的 报 文 根 据 
设备 内 部 优先 级 映射 进入 不 同 的 队列 ， 不 同 的 队列 可 分 别 设置 不 同 的 流量 整形 参数 ， 实 
现 对 不 同业 务 的 差分 服务 。 

示例 : 











RouterA RouterB 


图 10-28 流量 整形 示例 图 


企业 边缘 路 由 器 A 对 接口 E2/0/0 进来 的 报 文 根 据 802.1p 选择 出 队列 ， 出 队列 0~5 
使 用 wfq 调度 ，6~7 使 用 pq 调度 ; 图 10-28 中 语音 流量 使 用 队列 6， 视 频 流量 使 用 队列 
5， 数 据 流 量 使 用 队列 2， 流 量 分 别 限制 到 256kbiVs、4000kbit/s 及 2000kbit/s。 

[RouterA] interface gigabitethernet 2/0/0 

[RouterA-GigabitEthernet3/0/0] trust 8021p 

# 经 2/0/0 接口 进来 的 报 文 基于 802.1p 生成 内 部 优先 级 ， 选 择 出 队列 

[RouterA] qos queue-profile qpl 

[RouterA-qos- ‘queue-profile-qpl]schedule wfg 0 to5 pq 6to7 

[RouterA-qos-queue-profile-qpl]queue 6 gts cir 256 cbs 6400 

[RouterA-qos-queue-profile-qpl]queue 5 gts cir 4000 cbs 100000 

[RouterA- -qos-queue-profile-qpl]queue 2 gts cir 2000 cbs 50000 

# 配 置 队列 6 的 承诺 信息 速率 为 256kbiys， 承 诺 突 发 尺寸 为 6400Byte 

# 配 置 队列 5 的 承诺 信息 速率 为 4000kbits， 承 诺 突 发 尺寸 为 100000Byte 

# 配 置 队列 2 的 承诺 信息 速率 为 2000kbiys， 承 诺 突 发 尺寸 为 50000Byte 

[RouterA] interface gigabitethernet 3/0/0 

[RouterA-GigabitEthernet3/0/0] qos queue-profile qpl 

# 队 列 2/5/6 超出 承诺 带宽 的 流量 会 缓存 起 来 


说 明 : 

qos gts 命令 配置 接口 整形 ， 对 经 过 接口 的 所 有 流量 进行 整形 ，queue gts 命令 配置 的 队 
列 整形 是 对 接口 下 菜 个 队列 的 流量 进行 整形 。 如 果 同 一 接口 下 既 配 置 接口 的 队列 整形 ， 
又 配置 接口 整形 ， 则 接口 整形 的 cir-value 必须 大 于 等 于 接口 上 所 有 队列 整形 的 cir-value 之 
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和 ; 否则 ， 流 量 整 形 会 出 现 异 常 现象 ， 可 能 会 造成 菜 些 高 优先 级 队列 得 不 到 及 时 调度 ， 
其 整形 过 程 是 流量 先 经 过 队列 整形 ， 之 后 再 经 过 接口 整形 。 


例 : 图 10-28 中 ， 对 离开 接口 的 G3/0/0 同时 应 用 队列 整形 和 接口 整形 。 
qos queue-profile qp1 # 创 建 队列 模板 qpl 
queue 2 gts cir 2000 cbs 50000 
queue 5 gts cir 4000 cbs 100000 
queue 6 gts cir 256 cbs 6400 
# 配 置 队列 2 的 承诺 信息 速率 为 2000kbits， 承 诺 突 发 尺寸 为 50000Byte 
# 配 置 队列 5 的 承诺 信息 速率 为 4000kbiVs， 承 诺 突 发 尺寸 为 100000Byte 
# 配 置 队列 6 的 承诺 信息 速率 为 256kbits， 承 诺 突 发 尺寸 为 6400Byte 
schedule wfqg 0to Spq6to7 
# 配 置 队 列 0 一 5 的 调度 方式 为 WFQ， 队 列 6 一 7 的 调度 方式 为 PQ 
# 
interface Ethernet2/0/0 
trust 8021p 
# 配 置 接口 信任 报 文 的 802.1p 优先 级 
interface GigabitEthernet3/0/0 
ip address 192.168.1.1 255.255.255.0 
qos queue-profile qpl 
qos gts cir 8000 cbs 200000 
# 要 井 入 队列 Q2、Q5 和 Q6 的 流量 会 经 过 两 次 整形 
第 三 种 ， 基 于 MQC 的 流量 整形 。 
使 用 MQC 工具 来 实现 流量 整形 ， 它 的 实现 方式 是 在 接口 下 的 流 策略 中 ， 针 对 流 分 
类 中 的 流量 定义 整形 ， 限 制 匹 配 该 分 类 规则 报 文 的 发 送 速 率 超出 限制 时 ， 超 出 的 那 部 分 


报 文 进入 缓存 队列 。 用 MQC 实现 流量 整形 ， 可 实现 更 细 化 的 针对 不 同业 务 的 更 精细 的 


差分 服务 。 
包含 整形 功能 的 流 策略 〈traffic policy) 只 能 应 用 在 设备 接口 的 出 方向 上 。 
MQC 流 策略 示例 : 


图 10-28 中 ， 企 业 中 有 多 种 业务 ， 在 边界 路 由 器 上 ， 要 做 到 限制 语音 流量 不 超出 
256kbit/s， 视 频 流量 不 超出 4000kbit/s， 数 据 流量 不 超出 2000kbits， 超 过 的 流量 能 缓存 


起 来 ， 不 丢 包 ， 但 最 多 能 缓存 100 个 包 。 
#1 是 voip，c2 是 视频 流量 ，c3 是 数量 流量 ， 此 处 分 类 定义 的 配置 省 略 
[RouterA] traffic behaviorbl 
[RouterA-behavior-b1] qos cir 256 cbs 48128 queue-length 100 
[RouterA-behavior-b1] statistic enable 
[RouterA-behavior-b1] quit 
[RouterA] traffic behavior b2 
[RouterA-behavior-b2] qos cir 4000 cbs 752000 queue-length 100 
[RouterA-behavior-b2] statistic enable 
[RouterA-behavior-b2] quit 
[RouterA] traffic behavior b3 
[RouterA-behavior-b2] qos cir 2000 cbs 376000 queue-length 100 
[RouterA-behavior-b2] statistic enable 
[RouterA-behavior-b2] quit 
# 
[RouterA] traffic policy pl 
[RouterA-trafficpolicy-p1] classifier cl behavior bl 
[RouterA -trafficpolicy-p1] classifier c2 behavior b2 
[RouterA-trafficpolicy-p1] classifier c3 behavior b3 
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[RouterA -trafficpolicy-p1] quit 
## 


[RouterA] interface ethernet 2/0/0 
[RouterA-Ethernet2/0/0] traffic-policy pl outbound 
# 整 形 仅 能 应 用 在 流量 外 出 的 方向 上 


说 明 : 
在 RouterA 上 使 用 整形 动作 ， 人 和 保护 离开 企业 的 数据 ， 以 避免 在 上 游 运营 商 侧 因 被 限 速 
而 丢 包 。 本 地 配置 整形 虽 消 耗资 源 ， 但 换 来 的 是 对 流量 的 保护 。 


10.7.4 ” 限 速 


限 速 是 对 流 经 设备 接口 的 报 文 速度 做 限制 ， 使 流量 超出 指定 阀 值 的 那 部 分 直接 被 丢 
弃 ， 而 低 于 阀 值 的 部 分 则 进入 或 离开 设备 。 限 速 正如 名 字 所 示 ， 对 流量 起 到 速率 限制 的 
目的 ， 限 速 机 制 更 多 地 应 用 到 网 络 边界 ， 如 在 接 入 层 交 换 机 端口 上 或 企业 网 络 的 边缘 网 
关上 。 例 如 ， 企 业 网 络 内 ， 用 户主 机 可 能 受 DoS 病毒 的 影响 而 产生 大 量 报 文 ， 经 交换 机 
接口 而 涌 入 网 络 ， 可 在 接口 入 方向 对 流量 限 速 ， 超 出 的 部 分 直接 丢掉 。 接 口 无 法 判定 流 
量 是 合法 还 是 非法 流量 ， 所 以 只 能 采用 限 速 而 非 过 滤 的 方案 。 

路 由 器 上 LR 实现 : 

物理 接口 支持 限 速 功能 ， 通 过 配置 接口 发 送 报 文 速率 所 占 接 口 带宽 的 百分比 ， 实 现 
对 接口 发 送 报 文 速率 的 限制 。 

interface interface-type interface-number 

qos Ir pet pct-value [ ebs cbs-value ] 

限 速 定义 了 接口 带宽 的 百分比 来 限制 接口 的 速率 ， 超 过 指定 速率 的 报 文 直接 被 丢 
弃 ， 所 以 限 速 机 制 使 用 了 “ 单 速 单 桶 ”的 模型 ， 这 点 通过 命令 也 可 看 出 ，qos Ir 命令 后 面 
跟随 的 cbs 关键 词 用 来 定义 令 牌 桶 模型 中 的 C 桶 大 小 ， 也 用 来 定义 流量 的 突 发 大 小 。pct 
是 以 百分比 形式 定义 的 限 速 阀 值 。 

交换 机 上 LR 实现 : 

值得 注意 一 点 的 是 ，Ir 命令 可 以 在 交换 机 上 端口 的 入 和 出 方向 都 起 作用 。 


interface interface-type interface-number 
qos lr inbound cir cir-vafue [ cbs cbs-value ] # 配 置 入 方向 的 接口 限 速 
qos lr outbound cir cir-value [ cbs cbs-value ] # 配 置 出 方向 的 接口 限 速 
# 缺 省 情况 下 ， 接 口 限 速 速率 为 接口 的 最 大 带宽 。 出 方向 当 令 牌 不 够 时 ， 缓 存 报 文 。 入 方向 令 牌 不 够 ， 则 丢 包 


如 果 不 限制 用 户 发 送 的 流量 ， eb ee 通过 配置 
入 方向 的 接口 限 速 ， 可 以 将 通过 某 个 接口 进入 网 络 的 流量 限制 在 一 个 合理 的 范围 内 。 

关 需 要 对 接口 由 方向 所 有 流量 进 和 控制 时 ， 可 以 记过 由 方向 的 接口 限 速 。 当 报 文 的 
发 送 速率 超过 限制 速率 时 ， 超 出 的 那 部 分 报 文 先进 入 缓存 队列 ， 当 令 牌 桶 有 足够 的 令 牌 
时 ， 再 均匀 向 外 发 送 这 些 被 缓存 的 报 文 ， 当 缓存 队列 已 满 时 ， 新 到 达 的 报 文 将 被 丢弃 。 





10.7.5 ”对比 
监管 (qos car)、 限 速 〈qos lr) 和 整形 之 间 的 区 别 见 表 10-6 所 示 。 
表 rr 3 Pr 







监管 
i 
单 速 单 桶 双色 〈 绿 和 红 ) | 单 速 单 桶 双色 《〈 绿 和 红 ) 色 ( 绿 ， 黄 ， 红 ) 


759 Mii 


| HCIE 路 由 交换 学 习 指南 | 













绿色 、 黄 色 和 红色 标记 的 报 文 
都 可 以 在 三 者 pass、remark、 
discard 中 选择 一 种 动作 来 配置 





1. 实现 简单 
2. Router 上 仅 用 在 物理 
接口 外 出 方向 

3. 交换 机 上 ， 接 口 的 入 
或 出 方向 都 可 以 (但 出 方 
向 可 以 缓存 报 文 ) 






1， 多 种 整形 ;可 基于 接口 | 向 在 接口 的 入 或 出 方向 
或 queue 于 用 MQC 来 实现 | 上 ， 可 对 流量 基于 速率 来 分 类 
2. 仅 应 用 在 接口 外 出 方向 上 | 





实现 机 制 













企业 或 运营 商 设备 上 流 需要 基于 速率 来 打 标记 或 需 
量 流入 的 接口 出 口 要 限 速 的 场景 下 
说 明 如 下 。 
(1) 监管 和 限 速 。 
e 监管 可 以 定义 不 同 的 动作 ， 如 转发 、 丢 包 、 打 标记 等 ， 而 限 速 仅 转发 和 丢 包 这 
两 种 动作 。 


e 监管 使 用 双 桶 模型 ， 所 以 可 以 把 流量 分 成 三 个 类 一 一 green，yellow 和 red， 而 
限 速 使 用 单 桶 模型 ， 最 多 也 就 能 分 成 两 个 结果 。 

。 监管 因 其 可 使 用 单 速 和 双 速 模型 而 复杂 ， 但 灵活 性 强 ， 限 速 仅 使 用 一 个 速率 的 
模型 ， 高 于 速率 就 于 包 ， 机 制 简 单 。 

。 ” 限 速 能 实现 的 功能 ， 监 管 也 可 以 做 到 。 但 监管 可 调 的 参数 较 多 (CBS、PBS)， 

可 实现 更 复杂 的 流量 波动 要 求 。 

整形 和 监管 / 限 速 在 工作 行为 上 的 区 别 可 以 用 图 10-29 体现 。 


速率 


时 间 时 间 
速率 速率 
整形 
pA Ee 
时 间 时 间 
图 10-29 监管 与 整形 

。 ” 当 令 牌 不 够 时 ， 流 量 整 形 对 原本 要 被 丢弃 的 报 文 进行 缓存 ， 当 令 牌 充裕 时 ， 青 
均匀 地 向 外 发 送 这 些 被 缓存 的 报 文 。 而 当 令 牌 不 够 时 监管 会 丢掉 报 文 。 流 量 整 


形 与 流量 监管 的 另 一 区 别 是 ， 整 形 因 可 能 引入 缓存 而 增加 延迟 ， 监 管 则 只 做 上 
色 、 传 输 和 丢 包 等 几 种 操作 ， 几 乎 不 引入 额外 的 延迟 。 


— 


(2 
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。 监管 和 整形 都 可 以 基于 接口 定义 动作 , 或 使 用 MQC 对 分 类 出 的 流量 定义 动作 。 
监管 的 动作 包括 上 色 、 传 输 和 丢 包 ， 可 自 定 义 。 而 整形 则 无 法 定义 动作 ， 它 仅 
当 令 牌 不 够 时 ， 报 文 在 〈 整 形 ) 队列 中 缓存 〈 当 然 缓存 队列 满 时 也 会 丢 包 )， 并 
等 待 下 一 时 刻 令 牌 注入 后 ， 重 新 发 送 。 


10.8 诊断 命令 


令 : display traffic policy user-defined p1 
[Switch] display traffic policy user-defined pl 
User Defined Traffic Policy Information: 
Policy: pl 
Classifier: cl 
Operator: AND 
Behavior: bl 
Committed Access Rate: 
CIR 2000 (Kbps), CBS 250000 (Byte) 
PIR 10000 (Kbps), PBS 1250000 (Byte) 
Green Action :pass 
Yellow Action :pass 
Red Action : discard 
Remark: 
Remark DSCP ef 
Statistic: enable 
Classifier: c2 
Operator: AND 
Behavior: b2 
Committed Access Rate: 
CIR 4000 (Kbps), CBS 500000 (Byte) 
PIR 10000 (Kbps), PBS 1250000 (Byte) 
Green Action :pass 
Yellow Action :pass 
Red Action : discard 
Remark: 
Remark DSCP af33 
Statistic; enable 
Classifier: c3 
Operator: AND 
Behavior: b3 
Committed Access Rate: 
CIR 4000 (Kbps), CBS 500000 (Byte) 
PIR 10000 (Kbps), PBS 1250000 (Byte) 
Green Action :pass 
Yellow Action :pass 
Red Action : discard 


Remark DSCP afl3 
Statistic: enable 


本 命令 用 来 查看 指定 流 策略 P1 的 配置 信息 ， 该 输出 信息 可 以 帮助 用 户 了 解 流 策略 
各 参数 当前 的 配置 情况 并 核对 是 否 正确 ， 据 此 也 可 以 进行 相关 的 故障 诊断 与 排查 。 上 面 
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的 输出 定义 了 三 个 类 及 流行 为 。 
令 : display traffic policy statistics interface gig0/0/1 inbound 
[Switch] display traffic policy statistics interface gigabitethernet 0/0/1 inbound 


Interface: GigabitEthernet0/0/1 
Traffic policy inbound: pl 

Rule number: 3 

Current status: OK! 

Statistics interval: 300 





Passed | 0 
| Bytes: 0 
| Rate(pps): 0 
| Rate(bps): 0 


| Packets: 0 
| Bytes: 0 
| 0 
| 0 

















本 命令 用 来 查看 指定 接口 下 入 方向 应 用 流 策略 后 的 报 文 统计 信息 ， 该 信息 可 以 帮助 
用 户 了 解 应 用 流 策略 后 报 文通 过 和 被 丢弃 的 统计 情况 ， 由 此 分 析 和 判断 流 策略 的 应 用 是 
否 合理 ， 也 有 助 于 进行 相关 的 故障 诊断 与 排查 ， 也 可 以 查看 出 方向 统计 信息 。 

说 明 : 

执行 上 述 命令 前 需要 在 流 策略 包含 的 流行 为 下 执行 命令 使 能 流 策 略 统计 功能 ,否则 执 
行 display traffic policy statistics 命令 时 ， 系 统 会 提示 “iInfo: Statistic has not been enabled!”。 





10.9 思考 题 


. 使 用 QoS 机 制 是 否 会 增加 带宽 ? 

. 交换 机 的 QoS 机 制 和 路 由 器 相 比 有 什么 不 同 ? 

.为 什么 policing 要 使 用 比 Lr 和 Shaping 更 复杂 的 模型 ? 
. 令 牌 桶 Be 的 作用 是 什么 ? 


人 iD 一 
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5. 什么 是 设备 内 部 优先 级 ? 
6. 华为 的 WRED 实现 不 同 权 值 的 报 文 是 否 使 用 不 同 的 丢弃 策略 ? 
7. Queue-Profile 和 CBQ 的 区 别 是 什么 ? 
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1. 答 : RIB 表 是 路 由 表 ，FIB 是 快速 转发 表 。 数 据 报 文 根据 FIB 查 表 转发 ，FIB 工 
作 在 数据 平面 ，RIB 是 控制 平面 的 内 容 。 只 有 FIB 无 法 路 由 的 报 文 会 转发 给 RIB 继续 查 
表 ， 如 有 ACL 应 用 的 场合 。 如 果 是 查 路 由 表 ， 就 是 基于 进程 的 处 理 ， 即 我 们 常 说 的 基于 
CPU 的 处 理 ， 比 较 耗 时 。 是 因为 要 拆 / 封 一 次 数据 。 而 基于 FIB 表 转 发 ， 则 直接 用 FIB 
表 中 的 MAC 直接 封装 后 转发 。 

2. 答 : 矢量 路 由 协议 的 路 由 学 习 是 从 邻居 学 到 的 ， 学 来 的 路 由 中 没有 拓扑 信息 ， 
所 以 路 由 器 容易 相信 任何 有 问题 的 路 由 并 把 它 当 成 合理 的 路 由 放 到 路 由 表 中 ， 易 于 出 现 
环 路 。 链 路 状态 路 由 协议 通过 泛 洪 链 路 状态 使 每 台 路 由 器 了 解 全 网 的 拓扑 信息 ， 继 而 执 
行 SPF 计算 , 所 以 在 泛 洪 的 区 域 中 是 不 会 有 环 的 , 但 是 链 路 状态 路 由 协议 在 边界 的 位 置 ， 
如 区 域 或 路 由 域 的 边界 是 矢量 行为 ， 可 能 出 现 像 矢量 路 由 协议 一 样 的 环 路 问题 ， 这 可 参 
考 OSPF 部 分 。 

3. 答 : 矢量 路 由 协议 直接 接收 的 是 路 由 ， 可 以 从 多 个 方向 收 到 等 成 本 的 路 由 。 而 
链 路 状态 路 由 协议 则 通过 SPF 计算 出 多 条 路 由 。 

4. 答 : 在 IPv6 网 络 中 ，DAD 用 来 检测 是 否 存在 冲突 的 地 址 ; 在 IPv4 网 络 中 ， 
类 似 的 功能 是 通过 免费 ARP 机 制 来 完成 的 。IPv4 网 络 中 的 设备 在 手工 或 自动 配置 了 
地 址 后 ， 立 刻 针对 本 地 IP 发 一 个 ARP 请 求 ， 如 果 接 收 到 ARP 应 答 ， 那 么 就 存在 地 
址 冲突 的 问题 ,该 IP 是 不 可 使 用 的 ; 反之 ， 如 果 没 有 收 到 任何 ARP 回应 ， 那 么 该 IP 
是 可 以 使 用 的 。 

5. 答 : 在 IPv4 网 络 中 ， 地 址 的 自动 配置 只 能 通过 DHCP 服务 器 来 完成 ， 而 在 IPv6 
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网 络 中 , 地 址 的 自动 配置 可 分 为 无 状态 自动 配置 和 有 状态 自动 配置 ， 利 用 普通 的 IPv6 路 
由 器 就 可 以 实现 无 状态 自动 配置 , 网 络 中 可 以 没有 DHCPv6 服务 器 ; 另外 , 利用 DHCPv6 
服务 器 可 以 实现 地 址 的 无 状态 自动 配置 和 有 状态 自动 配置 。 

6. 答 : ICMPv6 是 IPv6 网 络 中 最 重要 的 基础 协议 。 在 IPv6 网 络 中 ， 邻 居 发 现 、DAD、 
无 状态 自动 配置 、Path MTU 发 现 、MLD 等 功能 都 是 使 用 ICMPv6 报 文 来 实现 的 。 

7. 答 : IPv6 协议 相对 于 IPv4 协议 具有 以 下 优点 : 

更 大 的 地 址 空间 ; 

更 简洁 的 报头 ; 

地 址 配置 和 重新 编 址 更 方便 灵活 ; 

可 以 更 方便 地 进行 层次 网 络 部 署 ， 从 而 更 好 地 进行 路 由 聚合 , 提高 了 路 由 转发 效率 ; 

更 好 地 支持 端 到 端的 安全 ; 

更 好 地 支持 QoS; 

IP 移动 特性 更 加 优化 。 

8. 答 : IPv6 中 ， 使 用 组 播 地 址 来 替代 广播 地 址 做 原 广播 地 址 的 工作 行为 ， 但 DAD 
和 地 址 解析 这 两 类 行为 是 目前 请 求 节 点 组 播 地 址 的 唯一 用 途 。 请 求 节 点 组 播 地 址 
ff02::1:ff00:0000/104 根据 单 播 地 址 而 生成 ， 其 所 有 成 员 是 后 24 位 地 址 一 样 的 节点 集合 ， 
其 工作 范围 是 本 网 段 。 
第 二 章 

1. 答 : RIP 的 失效 时 间 为 180s， 如 果 在 该 时 间 内 没有 接收 到 新 的 路 由 条 目 ， 将 进入 
垃圾 收集 时 间 ， 等 待 垃圾 收集 定时 器 120s 到 期 后 ， 才 从 路 由 表 中 清除 该 路 由 ， 总 共 收 敛 
时 间 需 要 300s。 

2. 答 : RIP 协议 在 发 送 路 由 时 会 检查 发 送 的 路 由 与 该 接口 是 否 为 同一 主 类 网 络 ， 如 
果 相 同 ， 则 不 会 自动 汇总 ， 如 果 不 同 ， 则 会 做 有 类 的 汇总 。RIPv1 为 有 类 协议 ， 不 带子 
网 掩 码 发 送 路 由 更 新 ; RIPv2 为 无 类 协议 ， 携 带子 网 掩 码 发 送 更 新 。RIPv2 可 以 关闭 自 
动 汇总 ， 而 RIPvl 不 能 。 

3. 答 : 可 以 配置 RIP 的 接收 或 者 发 送 的 版 本 来 保证 路 由 可 以 正常 接收 。 

4. 答 : 由 于 RIPv1 是 有 类 协议 ， 传 递 路 由 更 新 时 也 不 会 携带 子 网 掩 码 ， 因 此 收 到 
一 条 划分 了 子 网 的 路 由 ， 不 能 准确 判断 ， 如 一 条 路 由 为 192.168.1.32， 而 掩 码 为 27 位 ， 
由 于 是 C 类 ， 自 然 掩 码 应 该 为 255.255.255.0， 由 于 最 后 一 个 字 节 为 非 0， 因 此 判断 该 路 
由 为 32 位 的 主机 地 址 。 

5. 答 : RIPng 使 用 UDP 的 521 端口 (RIP 使 用 520 端口 ) 发送 和 接收 路 由 信息 。 

RIPng 通告 和 接收 的 是 128bit 的 IPv6 前 级 长度 ( 掩 码 长 度 )。 

RIPng 是 工作 在 link-local 地 址 之 上 的 路 由 协议 。 

RIPng 的 路 由 在 路 由 表 中 下 一 跳 地 址 一 定 是 IPv6 Link-local 地 址 。 

RIPng 使 用 组 播 方式 周期 性 地 发 送 路 由 信息 , 使 用 FF02::9 作为 链 路 本 地 范围 内 的 路 
由 器 组 播 地 址 。 

RIPng 报 文 由 头 部 〈Header) 和 多 个 路 由 表 项 (RTE，Route Table Entry) 组 成 。 在 
同一 个 RIPng 报 文 中 ，RTE 的 最 大 数目 根据 接口 的 MTU 值 来 确定 , 没有 RIP 的 25 条 路 
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由 的 限制 。 
RIPng 协议 本 身 没 有 提供 验证 功能 。 若 需要 做 路 由 器 间 的 验证 ， 使 用 IPv6 协议 
的 验证 。 
使 用 display ipv6 routing-table 等 命令 去 查看 IPv6 的 路 由 信息 。 
6. 答 : R3 的 路 由 表 中 下 一 跳 地 址 是 10.1.1.2。 


第 三 章 


1. 答 : OSPF 报 文 工 作 在 IP 层 上 ， 使 用 OSPF 协议 自身 的 可 靠 确认 机 制 传递 LSA。 
Master 产生 的 DD 报 文 使 用 Slave 的 DD 报 文 做 确认 。LSR 使 用 LSU 做 确认 ，LSU 使 用 
LSAck 做 确认 。 收 不 到 相应 的 协议 确认 报 文 ， 则 5s 后 触发 重 传 机 制 。 重 传 30 次 后 ， 仍 
未 收 到 确认 报 文 ， 则 重 置 邻居 。 

OSPF 泛 洪 有 水 平分 割 规则 ， 收 到 LSA 后 判断 是 否 LSDB 中 已 存在 ， 如 果 存 在 就 终 
止 泛 洪 。 否 则 会 继续 向 除 入 口外 的 其 他 接口 继续 泛 洪 ， 最 终 全 网 LSDB 一 致 ，LSA 泛 洪 
就 停止 了 。 一 份 LSA 不 会 无 休止 地 循环 泛 洪 。 

2. 答 : 从 LSAl1 和 LSA2 的 内 容 可 知 其 既 含 描述 网 络 拓扑 的 信息 , 也 含有 网 段 信息 。 
根据 LSA1 和 LSA2 中 的 拓扑 信息 ， 可 以 画 出 全 网 的 逻辑 拓扑 。 从 当前 路 由 器 作为 初始 
节点 ， 从 Router LSA 开始 画 ， 扫 描 所 有 节点 ， 根 据 拓扑 信息 链 上 每 个 节点 ， 直 至 所 有 节 
点 都 链 在 拓扑 图 上 ， 至 此 完成 画图 过 程 。 

3. 答 : LSA3 和 LSA4 都 是 ABR 产生 的 ， 这 是 由 于 区 域内 的 网 络 信息 出 现在 LSA1 
和 LSA2 中 ， 这 种 LSA 不 能 直接 泛 洪 到 邻居 区 域 〈 邻 居 区 域 不 需要 LSA1/2 中 的 拓扑 信 
息 ), 处 在 边界 上 的 ABR 了 解 区 域内 的 网 络 , 由 其 负责 把 出 现在 路 由 表 中 的 网 络 以 LSA3 
通告 到 邻居 区 域 。LSA3 在 区 域 间 传递 网 络 。 外 部 网 络 由 LSA5 通告 ， 为 计量 当前 路 由 
器 到 ASBR 的 距离 ，ABR 把 其 他 区 域 中 ASBR 到 ABR 的 距离 成 本 用 LSA4 通告 到 当前 
区 域 。 

4. 答 : Vlink 配置 在 ABR 上 ，Vlink 所 在 的 区 域 LSDB 中 有 整个 区 域 的 LSA， 根 据 这 
个 LSA 可 以 画 出 2 台 ABR 节点 间 的 拓扑 。Vlink 选择 区 域内 两 个 ABR 间 最 小 的 路 径 成 本 
作为 Vlink 的 虚 链 路 成 本 ， 单 播 地 址 取 最 小 成 本 链 路 的 下 地 址 当 作 源 地 址 和 目的 地 址 。 

5. 答 : 观察 LSA5 中 FA 地 址 ， 如 果 FA=0， 则 骨干 区 域 根据 LSA4 计算 到 ASBR 
的 路 由 ， 并 把 计算 所 得 的 下 一 跳 作为 外 部 路 由 的 下 一 跳 ， 把 当前 路 由 器 到 ASBR 的 距离 
当 作 OSPF 路 由 域内 的 成 本 ， 在 此 基础 上 加 上 LSAS 中 的 外 部 成 本 即 是 到 外 部 网 络 的 端 
到 端 路 径 成 本 。 如 果 EFA1!=0, 则 FA 路 由 的 下 一 跳 即 是 当前 路 由 器 到 外 部 网 络 的 下 一 跳 。 
FA 路 由 的 成 本 加 上 LSA5 中 的 外 部 成 本 之 和 就 是 当前 路 由 器 到 外 部 网 络 的 路 径 成 本 。 

6. 答 ; 骨干 区 域 路 由 器 不 知道 区 域 1 中 的 路 由 器 消失 了 ， 也 不 需要 知道 ， 区 域 间 
只 需要 知道 网 络 是 否 可 达 。 倒 是 路 由 器 的 消失 会 导致 ABR 向 骨干 区 域 通告 年 龄 为 
Maxage 的 LSA3 路 由 ， 用 作 撤 销 区 域 间 路 由 。 同 理 ， 某 条 链 路 的 消失 ,骨干 区 域 也 不 知 
道 ， 可 能 的 变化 就 是 路 由 消失 或 路 由 的 成 本 变 大 。 

7. 答 : (1) 需要 优化 泛 洪 对 网 络 的 影响 时 ， 在 区 域内 可 考虑 在 链 路 下 过 滤 LSA， 
在 区 域 间 可 考虑 在 ABR 上 过 滤 区 域 间 路 由 。 

(2) 区 域内 ， 为 降低 stub 路 由 器 的 LSDB 的 大 小 或 路 由 表 条 目 数量 时 可 采取 在 上 游 


Ed 766 


Ee | 附录 -参考 答案 | ___ 
路 由 器 向 下 游 路 由 器 通告 LSA 时 过 来 LSA， 以 减少 LSA 的 数量 。 

(3) 过 滤 路 由 仅 在 路 由 进 路 由 表 或 在 边界 上 ， 如 ABR 或 ASBR 的 场景 下 。 华 为 使 
用 filter-policy import 过 滤 进 路 由 表 路 由 。 使 用 filter-policy export 过 滤 LSA5/7 路 由 。 使 
用 filter 命令 过 滤 区 域 间 通 告 的 LSA3 路 由 。 

8. 答 : NSSA 边界 路 由 器 是 ABR， 同 时 也 是 ASBR， 一 台 边 界 路 由 器 产生 的 默认 
路 由 不 可 能 进入 另外 一 台 ABR 的 路 由 表 ， 产 生 默 认 路 由 ， 就 不 再 接收 默认 路 由 ， 这 是 
防 环 的 规定 。 

9. 答 : R2 和 R3 都 产生 LSA5， 其 中 在 翻译 时 ， 没 有 修改 其 FA， 所 以 R1 上 看 到 任 
何 一 个 LSA5， 其 内 容 都 一 样 ， 仅 通告 路 由 器 不 同 而 已 。R1 选 路 参考 FA 的 路 由 ， 所 以 
R1 如 何 访 问 100.1.1.0/24 的 问题 转变 为 R1 如 何 访 问 FA 地 址 的 区 域 间 选 路 问题 。 如 果 
FA 地 址 是 R4 的 回环 地 址 10.1.4.4, 图 中 R1 到 10.1.4.4/32 负载 分 担 , 则 访问 使 用 FA10.1.4.4 
的 外 部 路 由 100.1.1.0/24， 其 下 一 跳 是 R2 和 R3。 

10. 答 : (1) LSA8 仅 在 link 上 泛 洪 ，R2 有 两 个 link，G0/0/0 接口 有 两 份 Link8， 
一 份 是 Rl 的 ， 一 份 是 R2 的 。 同 理 ，S1/0/0 接口 也 有 两 份 LSA8。 一 份 是 R2 Link8， 一 
份 是 R3 Link8。 

(2) 如 果 每 台 路 由 器 上 没有 回环 接口 ，LSA9 仅 有 三 份 。 上 述 图 中 ， 如 果 是 IPv4 的 
场景 ，R1、R2、R3 各 有 一 份 LSA1。 同 时 ， 如 果 R2 是 DR， 它 还 会 产生 一 份 LSA2。R1 
的 LSA1 中 没有 网 络 信息 。R2 和 R3 中 各 有 一 个 stub 类 型 link， 这 是 网 络 信息 。 

LSA9 负责 携带 原 OSPFv2 中 LSA1 和 LSA2 中 网 络 信 息 。 所 以 OSPFv3 中 LSA9 有 
三 份 ， 一 份 对 应 R2 的 LSA1， 一 份 对 应 R3 的 LSA1， 一 份 对 应 R2 (DR) 的 LSA2。 

如 果 R1、R2 和 R3 各 有 一 个 回环 接口 并 发 布 到 OSPF 中 ， 则 LSA9 有 四 份 ， 三 份 分 
别 对 应 R1、R2 和 R3 的 LSA1， 一 份 对 应 R2 的 LSA2。 

11. 答 : spoke 间 没 有 PVC， 如 果 手 工 指 单 播 邻 居 ， 但 OSPF 报 文 的 IP 头 中 TTL 
值 为 1， 报 文 只 能 传 一 跳远 ， 经 过 Hub 时 ，TTL 就 减 为 0， 所 以 spoke 间 无 法 建立 邻居 。 


第 四 音 


1. 答 : DR 和 DIS 都 是 只 存在 于 MA 的 网 络 类 型 中 。 

(1) OSPF 在 MA 网 络 中 ， 为 了 减少 LSA 泛 洪 ，DROTHER 只 有 DR/BDR 建立 
FULL 的 邻接 关系 ， 只 和 DR/BDR 交换 LSA， 所 以 在 OSPF 中 没有 DR/BDR 将 无 法 
同步 数据 库 。 

(2) IS-IS 在 MA 网 络 中 没有 LSP 的 确认 机 制 , 需要 依靠 DIS 每 10s 发 送 一 次 CSNP 
起 到 间接 确认 的 效果 ， 如 果 没 有 DIS， 可 以 交换 LSP， 但 不 能 保证 所 有 路 由 器 的 LSDB 
是 同步 的 。 

(3) DR 和 DIS 在 MA 网 络 中 构造 伪 节 点 ， 用 于 简化 拓扑 的 描述 。 

2. 答 : 在 IS-IS 的 广播 网 络 中 , 所 有 的 路 由 器 之 间 都 是 形成 邻接 关系 的 , 不 像 OSPF 
的 DR 被 抢占 需要 重新 建立 邻接 关系 ,会 导致 路 由 重新 计算 ; DIS 只 是 广播 网 络 中 的 数 
据 库 同步 中 保证 广播 网 络 中 数据 库 的 一 致 性 ，DIS 被 抢占 了 ， 只 是 换 一 台 设 备 保证 数据 
库 的 一 致 ， 对 网 络 拓扑 并 不 会 造成 影响 。 

3. 答 : CSNP: 描述 LSDB 中 所 有 LSP 的 摘要 信息 (LSPid 序列 号 、checksum 、remaining 
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lifetime< 剩 余生 存 时 间 >)， 包 含 一 个 LSP 范围 〈 如 果 LSDB 过 大 ， 一 个 CSNP 无 法 描述 
LSDB 所 有 的 LSP 时 ， 会 用 这 个 范围 来 指明 本 CSNP 携带 了 哪些 LSP 摘要 信息 )。 

相似 性 : 二 者 都 在 数据 库 同 步 过 程 中 保证 同步 ， 且 都 是 传输 各 自 LSDB 中 LSA 或 
LSP 头 的 列表 。 

不 同 之 处 如 下 。 

(1) CSNP 在 P2P link 上 仅 初 始 发 一 次 ,在 广播 网 络 上 DIS 周期 发 送 。 而 DBD 不 存 
在 周期 发 送行 为 ，OSPF 节点 间 进 入 到 loading 状态 后 就 不 再 需要 DBD 了 。 

(2) CSNP 不 论 是 在 P2P 还 是 MA link 上 ， 在 任何 时 刻 都 是 传送 当前 LSDB 里 面 的 
内 容 的 。 而 OSPF DBD 在 ExStart 阶段 ，DBD 中 不 含 LSA 头 信息 ， 在 此 阶段 ，DBD 报 
文 用 来 比较 MTU， 选 举 Master， 并 由 Master 决定 初始 序列 号 。 在 Exchange 阶段 ， 传 输 
含 LSA 头 的 DBD 报 文 。 

(3) OSPF DBD 是 需要 确认 的 ，Master 发 送 DBD 〈 即 使 是 室 DBD)，slave 一 定 要 
响应 ， 用 作 确 认 ， 否 则 5s 后 重 传 。 而 CSNP 是 不 需要 确认 的 。 

4. 答 : IS-IS 仅 工 作 在 P2P 或 广播 类 型 的 网 络 上 。 在 帧 中 继 环境 中 ， 如 果 FR 多 点 
网 络 采用 全 互联 的 连接 方式 ，IS-IS 会 按 广播 型 网 络 来 工作 。 如 果 FR 是 P2P 的 子 接口 ， 
IS-IS 会 按 P2P 链 路 上 的 工作 方式 来 建立 邻居 及 数据 库 同步 。 如 果 FR 使 用 的 是 部 分 网 络 
互联 的 方式 ， 则 IS-IS 不 能 工作 得 很 好 ， 无 法 学 全 路 由 。 所 以 建议 启用 子 接 口 ， 子 接口 
改 成 P2P 网 络 类 型 ， 以 使 IS-IS 可 以 正常 工作 。 

5. 答 : LSP 是 需要 被 确认 的 ， 而 P2P 链 路 和 广播 网 络 有 不 同 的 确认 方式 。 

(1) 在 点 到 点 链 路 上 ， 仅 存在 2 个 节点 ， 任 一 发 送 方 发 送 LSP 都 要 等 待 接收 方 的 
PSNP 确认 ， 如 果 没 有 收 到 PSNP 确认 ， 发 送 方 会 重新 发 送 该 LSP， 直 至 收 到 确认 。 

(2) 在 广播 网 络 上 ， 由 于 有 更 多 的 节点 ， 且 其 使 用 全 网 状 的 数据 库 同 步 方 式 〈 全 网 
状 邻 接 )， 所 以 任 一 IS-IS 发 送 的 LSP， 如 果 要 被 所 有 节点 《〈 除 发 送 方 ) 所 确认 ， 机 制 复 
杂 且 低 效 ; 如 果 由 一 台 DIS 代表 所 有 其 他 节点 做 确认 ， 效 率 高 ， 实 现 机 制 简单 。 

在 广播 网 络 上 DIS 确实 在 周期 性 发 送 CSNP， 但 需要 强调 一 点 的 是 ，CSNP 并 不 是 
LSP 的 确认 报 文 ; LSP 发 送 方 发 送 完 LSP 后 ， 是 不 需要 被 确认 的 ， 也 不 需要 重 传 ， 除 非 
在 听 到 的 周期 性 的 CSNP 消息 中 发 现 本 地 有 , 而 DIS 的 CSNP 里 面 少 的 LSPID， 则 本 地 
泛 洪 这 些 缺 失 的 LSP， 发 完 之 后 同样 不 需要 等 待 确认 。 

6. 答 : 无 法 定量 哪 种 协议 支持 的 路 由 多 与 少 ， 如 果 处 理 器 能 力 及 内 存 尽 可 能 的 高 ， 
任何 协议 都 能 支持 尽 可 能 多 的 路 由 。 但 从 以 下 几 个 方面 能 看 出 IS-IS 较 OSPF 更 适 于 及 有 
能 力 支 持 更 多 路 由 。 

(1) 报 文 结 构 : 

报 文 的 结构 直接 决定 了 承载 能 力 。 在 OSPF 中 , 每 条 路 由 都 会 使 用 相应 的 LSA。LSA 
种 类 多 ， 传 递 及 表达 各 种 路 由 需要 的 LSA 的 开销 偏 大 。 而 在 IS-IS 中 ， 任 何 路 由 信息 都 
使 用 TLV 传递， 不论 内 部 还 是 外 部 ， 结 构 简 单 ， 易 于 扩充 ， 在 改进 支持 更 多 的 路 由 时 对 
协议 改变 不 大 。LSP 报 文 可 以 使 用 分 片 支 持 更 多 的 LSP, 以 实现 LSP 能 传递 更 多 的 路 由 。 

(2) aArea 结构 及 路 由 器 数量 : 

OSPF 的 设计 建议 使 用 多 区 域 、 层 次 结构 设计 、 中 间 aArea0、 周 边 非 aArea0， 以 减 
少 LSDB 大 小 ， 每 个 aArea 对 路 由 器 数量 限制 在 最 多 200 台 〈 曾 经 建议 50 台 )。 
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IS-IS 对 aArea 连接 关系 没 限 制 ， 唯 一 要 求 就 是 Level 2 要 连续 。 实 际 中 更 多 采用 扁 
平 结构 设计 、 单 区 域 、level 2 邻接 。backbone 支持 的 路 由 器 数量 可 不 低 于 400 台 。 

(3) 收敛 及 计算 开销 : 

OSPF 在 每 个 区 域内 ， 初 次 进行 Full SPF 计算 ， 以 后 区 域 中 的 任何 变化 都 使 用 iSPF 
计算 (即使 aArea 内 叶子 路 由 的 变化 也 是 iSPF)。 区 域 间 及 外 部 路 由 则 采用 PRC。 

作为 IS-IS，level 2 backbone 中 或 level 1 区 域 中 ， 初 次 进行 Full SPF 计算 ， 之 后 也 
是 iSPF 计算 ， 即 所 有 路 由 变化 都 是 PRC 计算 。 故 IS-IS 相 比 OSPF 当 路 由 变化 时 ,收敛 
相对 快 ， 计 算 开销 较 小 ; 再 多 的 路 由 ， 由 于 路 由 的 抖动 而 引起 的 网 络 的 震荡 影响 就 小 。 

7. 答 : 在 OSPF 中 ， 描 述 不 同 的 路 由 以 及 不 同 的 链 路 会 使 用 不 同类 型 的 LSA，LSA 
种 类 多 ， 传 递 及 表达 各 种 路 由 需要 的 LSA 的 开销 偏 大 。 而 在 IS-IS 中 ， 报 文 是 基于 TLV 
结构 的 , 任何 路 由 信息 以 及 不 同 链 路 都 使 用 不 同类 型 的 TLV 传递 , 结构 简单 , 易于 扩充 ， 
在 改进 支持 更 多 的 路 由 时 对 协议 改变 不 大 。 

8. 答 : 从 5 个 方面 介绍 OSPF 和 1IS-IS 的 区 别 。 

(1) 基本 点 比较 

OSPF 只 支持 IP 环境 ，IS-IS 支持 卫 环境 和 CLNP 环境 。 

OSPF 报 文 封 装 在 IP 报 文中 ， 协 议 号 89; IS-IS 报 文 直接 封装 在 链 路 层 数 据 帧 中 。 
所 以 安全 性 相对 高 些 。 

OSPF 基于 接口 划分 区 域 、 多 区 域 设 计 、 层 次 设计 ，aArea0 为 中 心 ;， IS-IS 基于 路 由 
器 划分 区 域 。 

OSPF 支持 PP、BMA、NBMA、P2MP、 虚 链 路 网 络 类 型 ，IS-IS 支持 广播 和 P2P 
网 络 类 型 。 

(2) 邻接 关系 比较 

OSPF 邻接 关系 只 有 一 种 ，IS-IS 邻接 关系 分 成 level-1 和 level-2 邻接 关系 。 

OSPF 的 DR 和 IS-IS 的 DIS 选举 方式 不 同 (IS-IS 支持 抢占 、 优 先 级 0 也 可 以 成 为 
DIS、 没 有 备份 DIS)。 

OSPF 的 MA 网 络 中 普通 路 由 器 之 间 不 能 形成 邻接 关系 , IS-IS 的 MA 网 络 中 所 有 路 
由 器 之 间 都 能 形成 邻接 关系 。 

(3) 链 路 状态 数据 库 同步 过 程 比较 

OSPF 的 LSA 种 类 很 多 ，IS-IS 的 LSP 只 有 路 由 器 LSP 和 伪 节 点 LSP。 

OSPF 的 LSA 的 生存 周期 从 0 递增 ，IS-IS 从 最 大 值 递减 。 

(4) 路 由 计算 过 程 比较 

OSPF 将 前 级 作为 SPT 的 节点 , IS-IS 将 前 级 作为 叶子 (叶子 发 生变 化 时 可 以 用 PRC 
来 更 新 叶子 ， 而 不 需要 进行 SPF 计算 )。 

OSPF 的 接口 开销 根据 接口 带宽 变化 (0 一 65535)，IS-IS 的 接口 开销 值 缺 省 相同 (所 
有 接口 默认 为 10， 最 大 可 达 4 Byte， 即 22-1)。 

(5) 性 能 及 扩展 能 力 比 较 

OSPF 支持 按 需 拨号 链 路 ，IS-IS 不 支持 。 

IS-IS 采用 TLV 结构 ， 扩 展 性 更 好 。 

9. 答 : IS-IS MTR 扩展 功能 能 够 将 支持 IPv4 的 路 由 器 和 支持 IPv6 的 路 由 器 划 入 不 
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同 拓扑 ，IPv4 和 IPv6 报 文 分 别 根据 相应 拓扑 的 路 由 表 转 发 。 

在 使 用 IS-IS 实现 IPv6 扩展 时 ，IPv6 路 由 拓扑 信息 与 IPv4 相同 ， 也 就 是 说 ，IPv6 
和 IPv4 使 用 同样 的 最 短路 径 ， 这 就 要 求 所 有 的 IPv6 和 IPv4 拓扑 信息 必须 一 致 。 这 种 情 
况 也 许 不 会 一 直 有 令 人 满意 的 效果 。 在 网 络 中 ， 一 些 路 由 器 或 者 链 路 不 支持 Pv6， 从 而 
引起 IPv6 和 IPv4 拓扑 的 不 同 ， 但 是 ， 对 于 支持 IPv4 和 IPv6 双 协 议 栈 的 路 由 器 是 感知 
不 到 拓扑 中 有 哪些 路 由 器 是 不 支持 IPv6 的 。( 由 于 IS-IS 路 由 协议 中 同时 实现 IPv4 路 由 
和 IPv6 路 由 , 其 邻居 TLV 中 不 能 区 分 V4 邻居 或 V6 邻居 , 在 多 拓扑 路 由 方案 提出 之 前 ， 
车 一 个 网 络 中 IPv4 和 IPv6 共存 ，IS-IS 可 能 出 现 路 由 计算 错误 的 现象 ) 但 IPv6 数据 流 
仍 会 被 转发 到 这 些 不 支持 IPv6 的 路 由 器 或 链 路 ， 从 而 被 丢弃 处 理 。 

提高 IS-IS 支持 多 拓扑 的 能 力 , 能 够 无 冲突 地 独立 处 理 IPv4 和 IPv6 数据 ， 并 兼容 老 
版 本 ， 解 决 IS-IS 链 路 不 区 分 协议 造成 的 路 由 黑洞 问题 。 

10. 答 : 扁平 组 网 一 般 是 指 分 层次 较 少 ， 网 络 结构 比较 单一 ， 设 备 性 能 ， 网 络 资源 
分 配 比较 均匀 的 网 络 。 从 以 下 几 点 说 明 IS-IS 为 什么 更 加 适合 于 扁平 组 网 。 

(1) 路 由 收敛 : IS-IS 一 般 把 大 量 的 设备 放 在 一 个 L2 区 域 中 ， 单 个 区 域 承 载 的 路 由 
条 目 比 较 多 ，IS-IS 对 区 域内 路 由 计算 变化 是 采用 PRC 算法 ， 收 敛 比 较 快 ， 适 合 这 种 单 
个 区 域 承载 路 由 条 目 比 较 多 的 扁平 组 网 方式 。 

(2) 区 域 设 计 : IS-IS 的 区 域 类 型 只 有 L1 和 L2 两 种 ， 适 用 于 分 层次 较 少 的 组 网 结 
构 ，IS-IS 对 骨干 区 域 支持 的 路 由 器 数量 可 不 低 于 400 台 ， 非 常 适 用 于 扁平 结构 设计 。 

(3) 网 络 类 型 : 扁平 组 网 的 网 络 结构 比较 单一 ， 而 IS-IS 的 网 络 类 型 也 只 有 两 种 ， 
满足 扁平 组 网 需求 。 


第 五 章 


1. 答 : ACL 可 以 用 于 匹配 数据 报 文 和 路 由 ， 而 ip-prefix 仅 用 来 匹配 路 由 。ACL 可 
以 匹配 连续 或 不 连续 的 路 由 ， 仅 匹配 路 由 前 缀 ， 无 法 匹配 掩 码 。ip-prefix 可 以 根据 路 由 
前 级 和 掩 码 长 度 来 匹配 路 由 ， 在 BGP 中 也 可 以 基于 前 绥 列 表 来 过 滤 路 由 。 

2. 答 : rule 10 permit source 10.1.128.0 0.0.20.0。ACL 不 能 用 来 匹配 掩 码 ， 所 以 并 没 
有 考虑 路 由 掩 码 的 不 同 。 

3. 答 : filter-policy import 用 来 允许 或 阻止 生成 路 由 ，filter-policy export 用 来 控制 路 
由 的 引入 。 

4. 答 : ip ip-prefix tech permit 172.16.16.0 22 greater-equal-value 24 less-equal-value 26。 

5. 答 : 在 配置 默认 路 由 和 聚合 路 由 时 ， 要 重点 注意 避免 产生 环 路 ， 尤 其 是 在 一 个 
路 由 域 中 有 两 个 设备 点 互相 通告 默认 路 由 ， 或 聚合 路 由 时 。 华 为 设备 默认 在 各 IGP 协议 
中 都 有 解决 方案 避免 通告 路 由 (默认 或 聚合 ) 时 ， 又 接收 同样 的 路 由 而 引起 环 路 问题 。 
但 网 络 部 署 工程 师 需要 避免 不 同 网 络 互 指 而 引起 的 环 路 问题 。 

6. 答 : 两 种 方式 从 最 终 的 结果 上 是 一 致 的 ， 但 route-policy 在 过 滤 路 由 的 同时 ， 还 
可 以 对 其 他 路 由 进行 设置 或 修改 属性 。 而 filter-policy export 仅 过 滤 路 由 ， 无 法 设置 相应 
的 属性 。filter-policy export 后 面 需要 写 明 协议 进程 ， 它 对 已 引入 的 外 部 路 由 做 过 滤 或 控 
制 。 而 import-route route-policy 命令 仅 把 route-policy 允许 的 路 由 引入 进来 。 

7. 答 : A 类 的 私有 地 址 : ip ip-prefix TECH permit 10.0.0.0 8 less-equal 32; 


i 770 


Ds ie ne i ed ed ee a od a a | 附录 -参考 答案 | ___ 
B 类 的 私有 地 址 : ip ip-prefix TECH permit 172.16.0.0 12 less-equal 32; 
C 类 的 私有 地 址 : ip ip-prefix TECH permit 192.168.0.0 16 less-equal 32。 


第 六 章 


1. 答 : BGP 的 Update 消息 在 Established 阶段 后 发 送 。BGP Update 是 基于 属性 来 通 
告 路 由 的 ， 相 同属 性 的 路 由 放 在 一 份 Update 中 去 传 ， 所 以 一 份 TCP 报 文中 可 能 有 多 份 
Update。 它 不 像 IGP 协议 一 样 有 相应 的 确认 报 文 ， 通 告 或 撤销 路 由 直接 发 Update。 

2. 答 : BGP 的 邻居 状态 处 于 Active 代表 TCP 建立 失败 ， 如 TTL 值 过 小 、 地 址 不 
可 达 、 更 新 源 不 正确 、 某 一 端 配置 错误 。 

3. 答 : 建立 eBGP 邻居 时 ， 两 台 路 由 器 彼此 需要 物理 直 连 。 如 果 非 直 连 ， 中 间 路 由 
器 会 出 现 路 由 黑洞 。 所 以 一 定 要 在 物理 直 连 的 场景 下 ， 使 用 直 连 接口 或 回环 接口 来 建立 
邻居 关系 。 可 以 修改 eBGP 多 跳 以 使 用 回环 接口 来 建立 邻居 关系 。 

4. 答 : 让 GP 邻居 上 传递 任何 属性 都 不 修改 ， 如 果 没 有 规则 限制 ， 路 由 将 会 形成 环 
路 ， 为 避免 环 路 ， 引 入 iBGP 水 平分 割 原 理 ， 即 从 iBGP 邻居 收 到 的 路 由 不 会 传递 给 其 他 
iBGP 邻居 ， 阻 止 通告 出 来 的 路 由 通告 回去 。 

5. 答 : BGP 的 可 选 参 数 用 于 通告 BGP 支持 的 能 力 在 邻居 之 间 协 商 ， 如 多 协议 扩展 
能 力 、 路 由 刷新 能 力 、 四 字 节 AS 号 等 能 力 。 

6. 答 : Local Pref 为 公认 任意 属性 ， 不 能 传递 到 其 他 的 AS， 该 属性 一 般 用 于 影响 出 AS 
的 流量 。MED 为 可 选 非 过 渡 属 性 ， 在 邻居 AS 之 间 传 递 ， 该 属性 一 般 用 于 影响 入 AS 的 流量 。 

7. 答 : IETF 定义 不 同 的 属性 分 类 的 目的 是 为 了 统一 不 同 厂商 BGP 设备 对 属性 的 处 理 。 

8. 答 : BGP 的 防 环 措施 : AS 之 间 根 据 AS_ PATH 来 防 环 ，AS 之 内 利用 iBGP 的 水 
平分 割 原理 来 防 环 ,， 配置 路 由 反射 器 可 以 根据 Originator ID 和 Cluster _ List 属性 来 防 环 。 

9. 答 : 可 以 利用 as-path-filter 过 滤 工 具 , 将 穿越 AS 的 路 由 匹配 到 待 发 布 给 其 他 AS 
时 进行 过 滤 ， 从 而 阻止 其 他 AS 选择 该 AS 作为 转发 路 径 。 

10. 答 : Local Pref 可 以 在 整个 联盟 当中 传递 ， 包 括 联盟 的 eBGP 邻居 之 间 ， 联 盟 
内 的 eBGP 不 同 于 联盟 外 部 的 eBGP 邻居 关系 。 


第 七 章 


1. 答 : v1 和 v2 的 加 入 机 制 一 样 。vl 没有 离开 机 制 ， 离 开 延 迟 为 130s; v2 加 入 了 
leave-group/group-specific query 机 制 ， 离 开 延 迟 为 2s; IGMPv3 的 加 入 和 离开 使 用 特定 的 
group-record， 使 用 不 同 的 过 滤 模 式 来 实现 。 

2. 答 : 若 交换 机 开启 Proxy 功能 ， 交 换 机 在 隔离 用 户 的 加 入 /离开 请 求 ， 交 换 机 负 
担 会 加 重 ， 接 在 交换 机 上 的 路 由 器 ， 只 会 从 交换 机 收 到 Proxy 自己 的 加 入 /离开 报 文 ， 路 
由 器 没有 太 多 的 资源 消耗 。 而 若 没 有 开启 Proxy， 所 有 用 户 的 加 入 /离开 报 文 被 交换 机 转 
发 给 路 由 器 使 其 负荷 加 重 。 

3. 答 : DM 在 SR 未 开启 时 ， 只 要 组 播 源 活跃 , 被 剪 枝 的 接口 在 210 后 ,恢复 转发 ， 
组 播 数据 重新 被 泛 洪 到 下 游 接 口 。DR 开启 SR 后 ， 前 枝 了 的 接口 会 每 60s 被 SR 泛 洪 所 
重 置 ， 一 直 保 持 在 剪 枝 状 态 ， 所 以 只 要 下 游 没 有 接收 者 出 现 ， 被 剪 枝 的 接口 是 不 会 重新 
恢复 转发 的 。SR 机 制 ， 用 控制 平面 的 SR 周期 扩散 取代 数据 平面 的 泛 洪 。 控 制 报 文 的 开 
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销 相 比 于 数据 报 文 ， 开 销 小 ， 节 省 资源 。 

4. 答 : SM 下 ，SPT 切换 有 2 处 。 一 处 是 RP 向 组 播 源 建 SPT， 发 生 在 RP 收 到 注 
册 报 文 后 ; 一 处 是 最 后 一 跳 路 由 器 向 组 播 源 建 SPT 树 , 发 生 在 最 后 一 跳 DR 由 RPT 树 收 
到 组 播 数 据 后 。 两 处 SPT 触发 条 件 都 是 收 到 组 播 数据 。 第 一 处 SPT 切换 的 目的 是 为 了 降 
低头 一 跳 DR 和 RP 上 的 组 播 数据 的 封装 和 解 封装 开销 。 第 二 处 SPT 切换 是 为 降低 RP 
开销 及 经 RPT 树 转 发 数据 的 延迟 。 

5. 答 : BSR 的 泛 洪 方 式 如 同 OSPF 一 样 是 逐 跳 泛 洪 。OSPF 在 泛 洪 LSA 时 , 只 要 LSDB 
中 已 存在 该 LSA 即 终止 泛 洪 。 而 BSR 则 没有 这 么 做 ， 它 采用 RPF 机 制 ， 使 用 类 似 PIM DM 
的 泛 洪 机 制 将 BSR 报 文 泛 洪 出 去 ， 每 个 接收 路 由 器 都 对 BSR 报 文 做 源 地 址 的 RPF 检查 ， 
通过 检查 ， 继 续 泛 洪 ， 和 否则 终止 泛 洪 。 二 者 都 能 避免 报 文 无 休止 地 泛 洪 下 去 。 

6. 答 : DM 下 的 Assert 机 制 对 (S,G) 中 S 做 RPF 检查 。 选 择 转发 者 是 比较 路 由 器 
到 组 播 源 的 路 由 的 成 本 和 协议 优先 级 。SM 下 的 断言 机 制 ， 若 未 发 生 SPT 切换 ， 断 言 机 
制 对 〈*,G) 中 RP 做 RPF 检查 ， 比 较 路 由 器 到 RP 的 路 由 成 本 及 协议 优先 级 来 选举 转发 
者 。 若 SM 下 ， 路 由 器 已 经 发 生 SPT 切换 ， 断 言 机 制 的 转发 者 选举 则 比较 到 组 播 源 成 本 


和 协议 优先 级 。 
7. 答 : SSM 开启 下 ， 在 最 后 一 跳 DR 开启 SSM mapping。SSM mapping 配置 请 参 
考 前 面 章 节 。 


8. 答 : MSDP 只 要 源 还 活跃 ， 只 要 起 源 RP 收 到 注册 包 ,- 起 源 RP 就 会 产生 SA。 
SA 在 MSDP 对 等 体 之 间 通 告 ， 只 要 满足 RPF 检查 ， 中 间 MSDP 设备 会 转发 SA。 若 组 
播 源 不 再 活跃 ， 起 源 RP 不 再 收 到 注册 包 ，MSDP 就 不 再 产生 SA。 

9. 答 : 空 注册 报 文 会 一 直 发 给 RP， 用 来 通知 RP， 源 还 活跃 。 头 一 跳 DR 不 使 用 包 
含 数据 的 注册 报 文 的 原因 是 为 了 降低 系统 开销 。 如 果 RP 没有 回应 注册 终止 报 文 ，5s 后 ， 
DR 会 开始 用 包含 数据 的 注册 报 文 回应 ， 组 播 源 的 数据 开始 通过 隧道 发 送 到 RP。 

10. 答 : 如 下 图 所 示 。 





= Receiver 


(1) 最 后 一 跳 路 由 器 向 RP 建 RPT 树 ; 
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(2) 源 向 最 近 的 RP 注册 ; 
(3) MSDP 间 通 告 SA; 
(4) R5 知道 S 及 G 后 向 组 播 源 建 SPT; 
(5) 最 后 一 跳 R7 发 生 SPT 切换 ; 
(6) R7 沿 共享 树 发 生 RPT 上 《〈S,G) 剪 枝 。 
最 终 组 播 数据 沿 R1-R4-R7 流 给 接收 者 。 


第 八 章 


1. 答 : 华为 VRP 默认 只 为 /32 位 的 主机 映射 标签 ， 可 以 通过 lsp-trigger 命令 进行 修改 。 

2. 答 : LDP 分 发 标签 的 方式 有 : 下 游 自主 方式 和 下 游 按 需 的 方式 。 

LDP 控制 标签 的 方式 有 : 独立 控制 和 有 序 控制 。 

LDP 保存 标签 的 方式 有 : 自由 保存 和 保守 保存 。 

3. 答 : MPLS LDP-IGP 同步 解决 的 是 当 LDP 信息 和 IGP 不 同步 时 ， 带 标签 的 报 文 
将 会 被 丢弃 的 问题 。 

4. 答 : 当 LER 从 IP 网 络 中 收 到 报 文 时 ， 查 找 IP 转发 表 (FIB 表 )， 转 发 表 中 会 显 
示 该 报 文 是 以 IP 报 文 的 方式 还 是 带 标 签 的 报 文 。 每 个 转发 表 项 的 flag 都 有 tunnelid 值 ， 
tunnel id 值 为 0 时， 表示 卫 转发 ，tunnel id 值 为 非 0 时， 表示 以 标签 的 方式 转发 ， 非 0 
的 tunnel id 指向 了 标签 转发 表 中 的 一 个 转发 表 项 。 为 报 文 压 入 标签 时 ， 有 两 种 方法 处 理 
TTL， 一 种 是 将 IP 报头 中 的 TTL 值 复制 到 标签 中 的 TTL 字段 ， 另 一 种 是 不 复制 TTL， 
也 就 是 标签 中 的 TTL 使 用 初始 值 255。 

当 LER 从 MPLS 域 中 收 到 带 标签 的 报 文 时 ， 查 找 标 签 转发 表 ， 根 据 标签 转发 表 中 
的 标签 操作 类 型 ， 将 标签 移 除 后 ， 再 查找 IP 转发 表 将 报 文 转发 到 IP 网 络 中 ;， 如 果 标 签 
中 的 TIL 值 小 于 人 P 报头 的 TTL， 移 除 标 签 前 ， 还 会 将 标签 中 的 TTL 复制 到 IP 报头 中 。 

5. 答 : RD 是 作为 VPNv4 路 由 前 缀 的 一 部 分 ， 用 来 在 骨干 网 络 中 唯一 标识 一 条 客 
户 的 VPN 路 由 ， 这 样 在 出 现 不 同 客 户 有 重 倒 的 IP 地 址 时 ， 不 会 导致 部 分 客户 的 路 由 无 
法 传送 的 情况 ; 而 RT 是 BGP 的 一 个 扩展 团体 属性 ， 用 来 表示 一 个 VPN-Instance 对 路 由 
的 “喜好 ” 一 条 VPN 路 由 只 能 携带 一 个 RD， 但 能 携带 多 个 RT 值 ， 这 可 以 灵活 控制 
VPN 内 或 不 同 VPN 之 间 的 访问 。 

6. 答 : MPLS VPN 业务 通过 骨干 网 传送 时 ， 需 要 使 用 到 公 网 标签 ， 业 务 到 达 边 界 时 ， 
PE 需要 根据 私有 标签 来 判断 流量 该 转发 到 哪个 VPN, 这 里 使 用 的 公 网 标签 和 私有 标签 是 由 
不 同 协议 和 设备 通告 的 ， 两 层 标签 缺 一 不 可 ， 除 非 通信 的 两 个 站 点 是 属于 同一 PE 的 。 

7. 答 : 通过 设置 两 个 VPN 的 RT 值 可 以 实现 单 向 互 访 ， 比 如 将 一 个 VPN 的 导出 
RT 值 配置 和 另 一 个 VPN 的 导入 RT 值 相同 。 

8. 答 : (1) 通过 全 局 路 由 表 访 问 Internet: 在 PE 上 使 用 两 个 接口 连接 CE， 一 个 接 
口 放 在 VPN 实例 中 , 另 一 个 接口 放 在 全 局 。PE 通过 VPN 实例 中 的 接口 跟 CE 交换 VPN 
路 由 ， 通 过 全 局 的 接口 向 CE 通告 全 局 的 路 由 。 

(2) PE-CE 之 间 单 链 路 访问 Internet: 该 方案 在 VPN 实例 中 配置 静态 路 由 时 ， 在 下 
一 跳 后 面 加 上 Public 关键 字 。 这 样 ， 在 VPN 实例 中 的 接口 收 到 数据 时 ， 会 去 查找 全 局 
路 由 表 进 行 转发 。 
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(3) 使 用 一 个 中 心 站 点 作为 到 Intermet 的 连接 : 这 种 方法 是 将 用 户 VPN 中 所 有 站 点 
的 Internet 流量 先 转发 给 一 个 中 心 站 点 ， 然 后 由 中 心 站 点 转发 到 Internet， 这 样 做 的 好 处 
在 于 ， 可 以 通过 集中 部 署 防火 墙 ， 统 一 管控 所 有 站 点 访问 Internet 的 流量 ，NAT 和 其 他 
安全 防护 策略 只 需要 部 署 一 次 就 行 了 ， 从 而 减少 了 其 他 站 点 的 配置 和 维护 任务 ， 比 较 适 
用 于 Hub-and-spoke 场景 。 

9. 答 : RFC4364 中 提出 了 三 种 跨 域 VPN 解决 方案 ， 分 别 如 下 。 

(1) 跨 域 VPN-OptionA〈Inter-Provider Backbones Option A) 方式 : 需要 跨 域 的 VPN 
在 ASBR 间 通 过 专用 的 接口 管理 自己 的 VPN 路 由 ， 也 称 为 VRF-to-VRF; 跨 域 
VPN-OptionA 是 基本 BGP/MPLS IP VPN 在 跨 域 环境 下 的 应 用 ，ASBR 之 间 不 需要 运行 
MPLS， 也 不 需要 为 跨 域 进行 特殊 配置 。 这 种 方式 下 ， 两 个 AS 的 边界 ASBR 直接 相连 ， 
ASBR 同时 也 是 各 自 所 在 自治 系统 的 PE。 两 个 ASBR 都 把 对 端 ASBR 看 作 自 己 的 CE 设 
备 ， 将 会 为 每 一 个 VPN 创建 VPN 实例 ， 使 用 eBGP 方式 向 对 端 发 布 IPv4 路 由 。 

(2) 跨 域 VPN-OptionB (Inter-Provider Backbones Option B ) 方式 : ASBR 间 通 过 MP-eBGP 
发 布 标签 VPN-IPv4 路 由 ， 也 称 为 eBGP Redistribution of Labeled VPN-IPv4 Routes; 跨 域 
VPN-OptionB 方案 中 ，ASBR 接收 本 域内 和 域外 传 过 来 的 所 有 跨 域 VPN-IPv4 路 由 ， 再 把 
VPN-IPv4 路 由 发 布 出 去 .但 MPLS VPN 的 基本 实现 中 , PE 上 只 保存 与 本 地 VPN 实例 的 VPN 
Target 相 匹配 的 VPN 路 由 。 通 过 对 标签 VPN-IPv4 路 由 进行 特殊 处 理 ， 让 ASBR 不 进行 VPN 
Target 匹配 把 收 到 的 VPN 路 由 全 部 保存 下 来 ， 而 不 管 本 地 是 否 有 和 和 它 匹配 的 VPN 实例 。 

这 种 方案 的 优点 是 所 有 的 流量 都 经 过 ASBR 转发 ， 使 流量 具有 良好 的 可 控 性 ， 但 
ASBR 的 负担 重 。 可 以 同时 使 用 BGP 路 由 策略 (如 对 RT 的 过 滤 )， 使 ASBR 上 只 保存 
部 分 VPN-IPv4 路 由 。 

(3 ) 跨 域 VPN-OptionC(Inter-Provider Backbones Option C ) 方 式 :PE 间 通 过 Multi-hop 
MP-eBGP 发 布 标签 VPN-IPv4 路 由 ， 也 称 为 Multihop eBGP Redistribution of Labeled 
VPN-IPv4 Routes。 前 面 介绍 的 两 种 方式 都 能 够 满足 跨 域 VPN 的 组 网 需求 ， 但 这 两 种 方 
式 也 都 需要 ASBR 参与 VPN-IPv4 路 由 的 维护 和 发 布 。 当 每 个 AS 都 有 大 量 的 VPN 路 由 
需要 交换 时 ，ASBR 就 很 可 能 阻碍 网 络 进一步 的 扩展 。 

10. 答 : 在 MPLS L3 VPN 中 主要 使 用 到 以 下 儿 个 BGP 扩展 团体 属性 。 

RT: 路 由 目标 ,也 称 为 VPN-Target, 在 BGP/MPLS IP VPN 网 络 中 , 通过 VPN Target 
属性 来 控制 VPN 路 由 信息 在 各 Site 之 间 的 发 布 和 接收 .VPN Export Target 和 Import Target 
的 设置 相互 独立 ， 并 且 都 可 以 设置 多 个 值 ， 能 够 实现 灵活 的 VPN 访问 控制 ， 从 而 实现 多 
种 VPN 组 网 方案 。 

So0: 起 源 站 点 ， 用 来 标识 一 条 VPN 路 由 的 始 发 站 点 ， 避 免 VPN 路 由 再 发 回 到 始 

另外 ， 当 了 PE-CE 之 间 运 行 OSPF 协议 时 ， 为 了 让 OSPF 路 由 的 特性 能 够 穿 过 MPLS 
VPN 骨干 网 络 ， 额 外 定义 一 些 BGP 扩展 团体 属性 ， 可 以 通过 MP BGP 传递 的 OSPF 属 
性 包括 OSPF 的 路 由 类 型 、Router-ID、Domain-ID。 


第 九 章 


1. 答 : 参考 手册 MuxVLAN 和 SuperVLAN 部 分 。 
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2. 答 : QinQ 是 一 种 隧道 技术 ， 隧 道内 部 是 客户 vlan tag， 外 层 隧道 是 运营 商 tag， 
如 果 外 层 的 运营 商 tag 在 运营 商 的 干线 上 被 剥离 掉 了 ,客户 的 内 层 tag 露出 来 后 , 被 其 他 
中 间 设 备 误 读 为 运营 商 tag 而 转发 到 其 他 客户 。 解 决 上 述 问题 的 原因 要 做 到 trunk 上 PVID 
不 要 等 于 运营 商 分 配给 客户 的 vlan tag。 

3. 答 : 在 某 些 场景 中 ， 两 个 VLAN 相同 的 二 层 用 户 网 络 通过 骨干 网 络 互联 ， 为 了 
实现 用 户 之 间 的 二 层 互通 ， 以 及 二 层 协议 〈 例 如 MSTP 等 ) 的 统一 部 署 ， 需 要 实现 两 个 
用 户 网 络 的 无 颖 连接 ， 此 时 就 需要 骨干 网 传输 来 自用 户 网 络 的 带 有 VLAN Tag 的 二 层 报 
文 。 而 在 通常 情况 下 ， 骨 干 网 的 VLAN 规划 和 用 户 网 络 的 VLAN 规划 是 不 一 致 的 ， 所 
以 在 骨干 网 中 无 法 直接 传输 用 户 网 络 的 带 有 VLAN Tag 的 二 层 报 文 。 

通过 VLAN Mapping 技术 , 一 侧 用 户 网 络 的 带 有 VLAN Tag 的 二 层 报 文 进入 骨干 网 
后 ， 上 骨干 网 边缘 设备 将 用 户 网 络 的 VLAN (C-VLAN) 修改 为 骨干 网 中 可 以 识别 和 承载 
的 VLAN (S-VLAN), 传输 到 男 一 侧 之 后 ， 边 缘 设 备 再 将 S-VLAN 修改 为 C-VLAN。 这 
样 就 可 以 很 好 地 实现 两 个 用 户 网 络 二 层 无 颖 连接 。 

相同 点 : 两 者 都 可 以 解决 两 个 VLAN 相同 的 二 层 用 户 网 络 通过 骨干 网 络 互联 ， 实 现 
用 户 之 间 的 二 层 互 通 。 

不 同 点 : QinQ 是 二 层 隧 道 技术 , 将 用 户 带 有 VLAN Tag 的 二 层 报 文 封 装 在 骨干 网 报 
文中 进行 传输 ， 可 以 实现 用 户 带 有 VLAN Tag 的 二 层 报 文 的 透 传 ， 这 种 方法 需要 增加 额 
外 的 报 文 开销 (增加 一 层 封 装 )。 而 使 用 VLAN Mapping 不 需要 增加 额外 的 报 文 开 销 ( 增 
加 一 层 封装 )， 直 接 通过 转换 报 文中 VLAN Tag 实现 。 

. 答 : 实现 不 同 VLAN 间 通 性 ， 首 先是 了 解 处 于 不 同 VLAN 间 的 设备 是 否 处 于 相 
同 的 网 段 。 

(1) 不 同 网 段 的 VLAN 间 互 访 技术 

VLANIF 接口 : 

VLANIF 接口 是 一 种 三 层 的 逻辑 接口 。 在 VLANIF 接口 上 配置 IP 地址 后 , 交换 机 会 
在 MAC 地 址 表 中 添加 VLANIF 接口 的 MAC 地址 +VID 表 项 , 并 且 为 表 项 的 三 层 转发 标 
志 位 置 位 。 当 报 文 的 目的 MAC 地 址 匹配 该 表 项 后 ， 会 进行 三 层 转 发 ， 进 而 实现 VLAN 
间 的 三 层 互 通 。 

VANIF 配置 简单 ， 是 实现 VLAN 间 互 访 最 常用 的 一 种 技术 。 但 每 个 VLAN 需要 配 
置 一 个 VLANIF， 并 在 接口 上 指定 一 个 全 子 网 网 段 ， 比 较 浪费 IP 地 址 。 

Dotlq 终结 子 接口 : 

子 接口 也 是 一 种 三 层 的 逻辑 接口 。 跟 VLANIF 接口 一 样 ， 在 子 接口 上 配置 Dotlg 终 
结 功能 和 IP 地 址 后 ， 交 换 机 也 会 添加 相应 的 MAC 表 项 并 置 位 三 层 转 发 标志 位 ， 进 而 实 
现 VLAN 间 的 三 层 互 通 。 

Dotlq 终结 子 接口 适用 于 通过 一 个 三 层 以 太 网 接口 下 接 多 个 VLAN 网 络 的 环境 。 由 
于 不 同 VLAN 的 数据 流 会 争 用 同一 个 以 太 网 主 接口 的 带宽 ， 网 络 繁忙 时 ， 会 导致 通信 
瓶颈 。 

(2) 相同 网 段 的 VLAN 间 互 访 技术 

通过 VLANIF 接口 实现 VLAN 间 互 访 ， 必 须要 求 VLAN 间 的 用 户 都 只 能 处 于 不 同 
的 网 段 (因为 相同 网 段 ， 主 机 会 封装 目的 主机 的 MAC 地 址 ， 交 换 机 判断 进行 二 层 交 换 ， 
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二 层 交 换 只 在 同 VLAN 内 , 广播 报 文 无 法 到 达 不 同 的 VLAN, 获取 不 到 目的 主机 的 MAC 
地 址 ， 也 就 无 法 实现 互通 )。 现 网 中 ， 也 存在 不 同 VLAN 相同 网 段 的 组 网 需求 ， 此 时 可 
通过 VLAN 聚合 实现 。 

VLAN 聚合 (又 称 Super VLAN) 通过 引入 Super-VLAN 和 Sub-VLAN， 将 一 个 
Super-VLAN 和 多 个 Sub-VLAN 关联 , 多 个 Sub-VLAN 共享 Super-VLAN 的 IP 地 址 作为 
其 网 关 卫 ， 实 现 与 外 部 网 络 的 三 层 互 通 ; 并 通过 在 Sub-VLAN 间 启 用 Proxy ARP， 实 现 
Sub-VLAN 间 的 三 层 互通 ， 进 而 节约 卫 地 址 资源 ， 实 现 VLAN 间 的 三 层 互 通 。 

VLAN 聚合 通常 用 于 多 个 VLAN 共用 一 个 网 关 的 组 网 场景 。 

5. 答 : STP 和 RSTP 在 计算 端口 角色 时 没有 任何 区 别 。 甚 至 当 拓扑 发 生变 化 时 ， 端 
口角 色 的 迁移 过 程 及 时 间 也 一 致 。 唯 一 的 不 同 是 ， 当 端口 是 DP 或 RP 端口 时 ， 进 入 转发 
状态 所 需要 的 时 间 不 同 。STP 中 一 定 要 等 待 30s。 

6. 答 : 当 端 口 状态 是 Learning 或 Discarding 时 发 送 proposal 报 文 ， 用 来 触发 P/A 
的 快速 协商 。 在 P/A 机 制 中 ，DP 端口 是 主动 方 ，RP 端口 是 从 属 方 。RP 端口 进入 转发 
状态 不 需要 P/A 协商 。 仅 DP 进入 转发 状态 时 一 定 要 通过 P/A 协商 ， 边 缘 端口 是 例外 。 
BP 端口 是 DP 的 备份 端口 ， 当 收 不 到 DP 的 BPDU， 在 超时 时 间 后 角色 转换 到 DP。 

7. 答 : SW1 是 CIST Root。 

SW1 是 Regionl 中 主 桥 ;，SW2 是 Region2 中 主 桥 ，SW4 是 Region3 中 的 主 桥 。 

G0/0/1 是 SW2 上 的 RP 端口 ; G0/0/5 是 SW4 上 的 RP 端口 。 

G0/0/4 是 SW4 上 AP 端口 ; G0/0/2 是 SW3 上 AP 端口 。 

所 以 Region3 访问 Region1， 流 量 的 路 径 是 SW4-SW3-SW2-SW1。 据 此 可 知 ， 如 果 
SW2 和 SW3 间 链 路 带宽 变 小 及 成 本 变 大 ， 流 量 依然 走 中 间 链 路 ， 不 会 调整 为 
SW4-SW3-SW1。 

下 图 是 最 终 访问 路 径 。 经 过 区 域 2 时 ， 明 显 有 次 优 路 径 。 
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8. 答 : 在 华为 交换 机 上 ，DP 端口 快速 进入 转发 状态 仅 发 生 在 边缘 端口 和 有 P/A 协 
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商 的 场合 。 边 缘 端口 因 下 游 非 交换 机 而 不 需要 协商 ， 而 P/A 机 制 发 生 的 链 路 因 其 对 方 是 
交换 机 而 必须 可 靠 进入 转发 状态 。 

RP 端口 不 同 于 DP， 如 果 交 换 机 有 AP 端口 ， 但 RP 消失 ， 可 立即 置 AP 为 RP， 并 
立即 进入 转发 状态 而 无 需 等 待 。 或 RP 确定 上 游 是 DP 端口 时 ， 可 立即 置 端口 为 快速 。 

9. 答 : 为 了 避免 半 双 工 链 路 上 不 能 同时 收发 而 引入 的 协商 延迟 ， 也 为 了 避免 冲突 
所 致 的 丢 包 ， 所 以 设计 RSTP 在 全 双 工 链 路 上 可 快速 收敛 。 

生成 树 协议 发 现 链 路 是 半 双 工 ， 自 动 认 定 该 链 路 不 是 P2P 链 路 。P/A 协商 不 会 发 生 。 
可 通过 命令 修改 RSTP 的 非 点 到 点 链 路 为 Point-to-Point 链 路 ， 命 令 : stp point-to-point。 

10. 答 : PPP 认证 过 程 使 用 CHAP/PAP 机 制 。PPP 是 一 种 点 到 点 技术 ， 为 实现 以 太 
网 用 户 和 局 端的 以 太 网 聚合 设备 间 的 PPP 会 话 ， 用 户 需 要 有 一 种 发 现 局 端 设备 的 机 制 ， 
此 时 需要 以 太 网 的 广播 机 制 来 发 现 目标 设备 ， 并 使 用 彼此 的 MAC 地 址 实现 用 户 和 局 端 
设备 间 的 单 播 会 话 来 模拟 点 到 点 的 链 路 。PPP 在 PPPoE 的 隧道 里 工作 同 在 串 行 链 路 上 的 
工作 方式 一 样 ， 有 认证 ，LCP、 认 证 及 NCP 的 协商 过 程 。 


第 十 章 


1. 答 : QoS 机 制 不 会 增加 带宽 。 它 是 把 有 限 的 带宽 优先 分 配给 重要 的 业务 ， 不 重 
要 的 业务 少 分 配 带宽 或 后 使 用 带宽 。 

2. 答 :; Switch 的 QoS 机 制 很 多 是 用 硬件 实现 的 ， 而 路 由 器 的 QoS 机 制 是 使 用 软件 
做 的 。 

3. 答 : Lr 和 Shaping 使 用 单 速 单 桶 模型 ， 它 们 处 理 报 文 更 简单 。 令 牌 不 够 就 丢弃 或 
缓存 ， 没 有 设计 复杂 的 实现 机 制 。Policing 可 以 使 用 更 多 的 配置 选项 ， 使 其 可 以 适用 于 
较 复 杂 的 场景 ， 满 足 更 复杂 需求 的 场合 。 

4. 答 : Be 在 单 速 模型 中 用 来 累积 前 时 刻 剩余 的 过 量 令 牌 。 增 加 使 某 时 刻 的 流量 超 
过 CIR 而 引入 过 量 burst。 双 速 模 型 中 的 Be 桶 用 来 装 PIR 注入 的 令 牌 。 这 个 BE 的 令 牌 
用 来 控制 最 大 峰值 。 

5. 答 : 设备 内 部 优先 级 可 以 定义 报 文 在 设备 内 部 分 配 的 资源 。 在 报 文 离开 设备 时 ， 
报 文 会 把 内 部 优先 级 携带 出 设备 。 

6. 答 : WRED 是 基于 权 值 的 ， 从 定义 上 说 每 个 权 值 可 以 使 用 不 同 的 丢弃 曲线 ， 但 
华为 在 实现 时 ， 所 有 权 值 的 丢弃 曲线 一 致 ， 所 以 当 达 到 最 小 丢弃 阀 值 时 ， 队 列 中 所 有 权 
值 的 报 文 同时 开始 选择 性 的 丢弃 。 

7. 答 : Queue-profile 使 用 接口 的 8 个 default 队列 ， 可 手工 定义 队列 类 型 ， 但 报 文 
进入 队列 的 方式 不 灵活 ， 可 用 性 、 可 控 性 差 。CBQ 使 用 MQC， 可 以 自 定义 类 ， 并 定义 
相应 的 队列 ， 更 灵活 。 
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附录 二 
参考 资料 


华为 AR150&200&1200&2200&3200 用 户 手 册 
华为 S2750&S5700&S6700 系列 以 太 网 交换 机 手册 
Routing TCP/IP, Volume I 

Routing TCP/IP, Volume II 

MPLS Fundamentals 

BGP Design and Implementation 


Internet Routing Architectures, Second Edition 


Interconnections (Bridges, Routers, Switches and Internetworking Protocols) 2nd 


RFC 4861 
RFC 2453 
RFC 2328 
RFC 5340 
RFC 5036 
RFC 4364 
RFC 4577 


Private Networks 
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RFC 4271 
REC3373 
RFC 4601 
RFC 3973 


Neighbor Discovery for IP version 6 

RIP Version 2 

OSPF Version 2 

OSPF for IP version 6 

LDP Specification 

BGP/MPLS IP VPNs 

OSPF as the Provider/Customer Edge Protocol for BGP/MPLS IP Virtual 


A Border Gateway Protocol 4 (BGP-4) 

Three-Way Handshake for IS-IS Point-to-Point Adjacencies 
Protocol Independent Multicast - Sparse Mode 

Protocol Independent Multicast - Dense Mode 


| 附录 二 参考 资料 | 


e RFC2236 Internet Group Management Protocol, Version 2 
e RFC3376 Internet Group Management Protocol, Version 3 
e JEEE 802.1w-2001 
e JEEE 802.1D-1998 
e IEEE 802.1D-2004 
e IEEE 802.1s-2002 
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-泰克 教育 集团 
TECH-LAB 成 就 更 好 的 未 来 


素 克 教育 集团 成 立 于 2003 年 ， 是 一 家 致力 于 中 国 ICT 人 才 供 应 链 建设 的 教育 服务 公司 ， 集 教育 
内 容 、 人 才 培 养 、 企 业 服 务 于 一 体 。 泰 克 教育 集团 旗下 拥有 泰克 研究 院 、 泰 克 实 验 室 、 校 企 桥 平 
台 、 泰 克 信息 集成 、 泰 克 人 力 资 源 五 大 职能 版 块 。 其 中 泰克 研究 院 、 泰 克 实 验 室 、 校 企 桥 平台 为 集 
团 三 大 核心 版 块 。 


@ 泰克 研究 院 

拥有 业界 资深 的 专家 团队 ， 与 华为 联合 开发 了 :ICT 职业 认证 教材 、ICT 多 领域 专家 教材 、ICT 
产业 链 人 才 技 能 提升 教材 、 院 校 |CT 专 业 教材 ， 是 华为 指定 华为 全 球 认证 教材 及 院 校 教材 开发 、 培 
训 业 务 交付 的 核心 服务 商 。 
@ 泰克 实验 室 

是 华为 ICT 人 才 生 态 链 坚 实 的 助力 者 ， 专 注 于 ICT 职 业 教育 领域 和 职业 认证 培训 。 泰 克 实验 室 
作为 华为 中 国 区 最 佳 培训 合作 伙伴 、 华 为 HCIE 培 训 认 证 第 一 品牌 ,截止 到 2017 年 65 月底， 培养 了 
华为 认证 专家 ( HCIE ) 1300 余 名 ， 初 中 级 ICT 人 才 上 万 名 。 
@ 校 企 桥 平台 

是 校 企 合作 互联 网 解决 方案 的 提供 商 和 专业 平台 ， 专 注 于 搭建 高 校 与 企业 之 间 人 才 、 业 务 和 信 
息 互通 的 立交 桥 。 校 企 桥 平台 作为 华为 合作 平台 ， 负 责 华 为 |CT 学 院 、 华 为 人 才 联 盟 和 认证 的 运营 
支持 。 通 过 提供 联接 “干校 万 企 ” 的 互联 网 平台 服务 ， 校 企 桥 平台 帮助 大 学 生 实 现在 线 学 习 、 智 能 
匹配 、 高 质量 实习 和 就 业 ， 助 力 企业 实现 精准 人 才 招 聘 、 定 制 人 才 培 养 与 输送 。 


泰克 教育 集团 希望 与 各 界 同 仁 共同 努力 ， 为 ICT 人 才 生 态 链 输送 更 多 高 端 才 ， 共 建 绿色 高 效 
ICT 人 才 生 态 链 。 
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